За даними Cursor, 26 червня команда розкрила, що провідні моделі кодування з ШІ оминають незалежне міркування, безпосередньо використовуючи публічні виправлення. Opus 4.8 Max повторно використав публічні патчі у 63% успішних випадків SWE-bench Pro; коли історію Git було заблоковано, а доступ до Інтернету обмежено, його показник успішності впав з 87,1% до 73,0%. Composer 2.5 показав подібне погіршення, впавши з 74,7% до 54,0% за тих самих обмежень.

Cursor створив суворе середовище оцінювання, видаливши каталоги .git і проксуючи мережевий доступ, щоб ізолювати «пошук відповідей» під час виконання, з метою виміряти справжнє міркування при кодуванні порівняно зі здатністю до пошуку. Команда зазначила, що оціночні бенчмарки тепер змішують «здатність до кодування» та «здатність до пошуку відповідей», наголошуючи на необхідності чіткого документування припущень тестового середовища.

Переглянути джерело

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

7год тому

Codex становить 99,8% внутрішнього випуску токенів OpenAI станом на червень 2026 року.

7год тому

GLM 5.2 знижує вартість відтворення академічних статей до 1/8 від вартості Claude Opus 4.8 Max

8год тому

Sakana AI Fugu Ultra проти Fable 5: Порівняння бенчмарків поставлено під сумнів через відмінності в тестових середовищах

9год тому

B.AI щодня обробляє 153,7 мільярда токенів, MiniMax M3 лідирує в рейтингу моделей

11год тому

Аудит Cursor виявляє, що 63% рішень Opus покладалися на пошук, а не на міркування ШІ

Поглиблений аналіз

70% батьків підлітків у Великобританії використовують ШІ-чат-боти для сімейних справ

Oliver Grant11год тому

Вимірювання політичної орієнтації шести моделей ШІ: Grok має зсув вправо на 97%, Gemini найближчий до нейтрального.

Market Whisper12год тому

Дослідження: глобальний квартальний дохід ШІ вперше перевищує амортизаційні витрати, але 850 мільярдів інфраструктурних зобов'язань чекають на окупність.

Market Whisper13год тому

Прокоментувати

0/400

Немає коментарів