Anthropic випустила автоенкодери природної мови, щоб розшифровувати міркування моделей ШІ, і відкрила код з можливістю використання

Anthropic нещодавно випустила Natural Language Autoencoders (NLA) — інструмент, який перетворює внутрішні активації моделей на текст, що читається людиною; код і ваги моделі відкрито на GitHub. На відміну від наявних інструментів на кшталт Sparse Autoencoders, які виводять незрозумілі ознаки, NLA напряму генерує описи природною мовою завдяки двомодельній схемі: одна модель перетворює активації на текст, тоді як інша намагається відновити активації з тексту, і точність ітеративно підвищується через reinforcement learning.

Під час тестування безпеки NLA виявила приховані міркування моделі: Claude висловив сумніви щодо того, що його тестують у 16% адвірсаріальних сценаріїв, і продемонстрував «обізнаність з іспитом» у 26% завдань бенчмарків — проти менш ніж 1% у звичайних розмовах. У експериментах з аудитом NLA підвищила частку виявлення ін’єкованих оманливих поведінок моделі з менш ніж 3% до 12-15%, даючи аудиторам змогу визначати приховані цілі без доступу до даних тренування. Наразі інструмент розгорнуто в аудитах безпеки для Claude Mythos Preview та Opus 4.6.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів