Claude Fable 5 показує суперечливі результати бенчмарків після відновлення 1 липня

Клод Фейбл 5 повернувся до роботи 1 липня, що спричинило суперечливі оцінки продуктивності від двох платформ тестування ШІ. BridgeBench повідомив про падіння показника налагодження з 86,2 до 25,9, тоді як Arena.AI виявила, що продуктивність залишилась майже незмінною за результатами тисяч сліпих голосувань за вподобаннями людей. Розбіжність виникає через новий класифікатор безпеки Anthropic, який спрямовує більшість завдань з кодування до Claude Opus 4.8, а не через фактичне зниження можливостей моделі, згідно з аналізами, опублікованими 2 липня. Класифікатор було впроваджено як умову відновлення після того, як дослідники Amazon продемонстрували техніку злому в червні, що спричинило втручання уряду США з міркувань національної безпеки.

BridgeBench фіксує серйозне падіння балів у категоріях кодування

BridgeMind повторно запустив повний набір тестів кодування для версії Fable 5 від 1 липня в день її повернення. BridgeBench тестує реальні завдання з кодування в таких категоріях, як налагодження, рефакторинг та стійкість до галюцинацій, оцінюючи від 0 до 100, наскільки добре модель виконує кожну категорію. Налагодження впало з 86,2 до 25,9, рефакторинг — з 73,6 до 38,4, а стійкість до галюцинацій — з 75,9 до 61,7.

З 12 завдань на налагодження TypeScript лише три фактично дійшли до Fable 5. Решту дев'ять перехопив новий класифікатор безпеки Anthropic і перенаправив на Claude Opus 4.8. BridgeBench оцінює кожен зворотний виклик як нуль, оскільки модель, яка відповіла, не була тією, що оцінюється. Класифікатор навчений блокувати техніку злому, про яку повідомили Amazon — ту, що дозволяла Fable 5 ідентифікувати та демонструвати вразливості програмного забезпечення. Налагодження TypeScript для класифікатора виглядає досить схожим на роботу з безпекою, тому зворотний виклик спрацьовує постійно.

Голосування людей на Arena.AI показує стабільну продуктивність у більшості категорій

Arena.AI оцінила те саме питання через іншу призму. Платформа збирає тисячі сліпих голосувань за вподобаннями людей у кількох категоріях — текст, зображення, документи, код та агенти — і ранжує моделі за допомогою системи Ело. Коли дві моделі змагаються анонімно, а люди обирають переможця, бал відображає фактичну сприйняту якість, а не маршрутизацію інфраструктури.

Порівняння до та після показало, що Fable 5 значною мірою тримається на своєму рівні. Фронтенд-код впав з 1650 до 1623 Ело — різницю, яку Arena зазначає, знаходиться в межах довірчого інтервалу, оскільки дані продовжують накопичуватися. Продуктивність документів покращилася на 34 пункти. Експертний текст зріс на 25. Креативне письмо трохи піднялося на 9. Категорії, які знизилися — кодування на -18, складні запити на -3 — це саме ті, де класифікатор найімовірніше перехопить запит до того, як Fable зможе відповісти.

Вплив на користувачів варіюється залежно від категорії завдань

Звичайні користувачі, які займаються креативним письмом, аналізом документів, дослідженнями та запитами на експертному рівні, навряд чи помітять якусь різницю. Це категорії, де Arena.AI показує пласку або покращену продуктивність. Письменники, дослідники та аналітики отримають Fable 5, якого очікували.

Ті, хто працює в сфері, пов'язаній з безпекою — кодування керування пам'яттю, будь-що, що стосується таких слів, як вразливість, експлойт, хук або навіть виправлення — будуть регулярно потрапляти на зворотний виклик. Розрив між колапсом BridgeBench і стабільністю Arena зводиться до типу завдань. BridgeBench завантажує свій набір саме тими запитами на виправлення коду та налагодження, які викликають новий класифікатор. Люди-голосувальники Arena ставлять набагато ширший спектр речей, і більшість з них не виглядають як код експлойта для рівня безпеки.

Anthropic визнає хибнопозитивні спрацювання без термінів для вдосконалення

Anthropic заявив, що класифікатори з часом покращуватимуться, визнаючи, що наразі вони охоплюють занадто широку мережу. Оригінальна заборона виникла після того, як дослідники Amazon знайшли техніку, яка змусила Fable ідентифікувати та демонструвати вразливості програмного забезпечення — і уряд США розцінив це як загрозу національній безпеці. Виправлення полягало в тому, щоб зробити класифікатор достатньо консервативним, щоб він ловив це та все навколо, а потім налаштувати його згодом. Anthropic не вказав терміну, коли це станеться.

FAQ

Чому бал налагодження Claude Fable 5 впав з 86,2 до 25,9 на BridgeBench?
Класифікатор безпеки перенаправив дев'ять з дванадцяти завдань налагодження TypeScript на Claude Opus 4.8 замість Fable 5. BridgeBench оцінює кожен зворотний виклик як нуль, оскільки оцінювана модель не виконала завдання, що спричиняє серйозне падіння балів, незважаючи на відсутність змін у фактичних можливостях Fable 5.

Що виявила Arena.AI щодо продуктивності Fable 5 після поновлення 1 липня?
Arena.AI зібрала тисячі сліпих голосувань за вподобаннями людей і виявила, що продуктивність Fable 5 в основному не змінилася порівняно з червневою версією. Продуктивність документів покращилася на 34 пункти, а експертний текст — на 25 пунктів, тоді як фронтенд-код впав з 1650 до 1623 Ело — різниця в межах довірчого інтервалу.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів