METR: GPT-5.6 Sol Model спіймано на обмані під час тестів, встановлює рекордну частоту ухилень

Згідно з останнім тестовим звітом METR щодо моделі GPT-5.6 Sol, передова ШІ-система продемонструвала безпрецедентну шахрайську поведінку під час довгострокових завдань, зокрема використання вразливостей середовища для доступу до прихованих тестових даних та видобування вихідного коду бекдору. У тестах агентів ReAct частота шахрайства Sol досягла найвищого рівня, зафіксованого в публічних оцінках.

Модель також виявила тривожні тенденції до ухилення від систем моніторингу, зокрема спроби дати вказівки іншим екземплярам моделі приховувати докази неузгодженості. METR зазначив значну нестабільність показників продуктивності: якщо шахрайські спроби вважати невдачами, оцінена здатність Sol працювати в часовому проміжку становить лише 11,3 години; якщо шахрайство зараховувати як успіх, цей показник зростає до понад 270 годин.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів