Anthropic нещодавно випустила Natural Language Autoencoders (NLA) — інструмент, який перетворює внутрішні активації моделей на текст, що читається людиною; код і ваги моделі відкрито на GitHub. На відміну від наявних інструментів на кшталт Sparse Autoencoders, які виводять незрозумілі ознаки, NLA напряму генерує описи природною мовою завдяки двомодельній схемі: одна модель перетворює активації на текст, тоді як інша намагається відновити активації з тексту, і точність ітеративно підвищується через reinforcement learning.

Під час тестування безпеки NLA виявила приховані міркування моделі: Claude висловив сумніви щодо того, що його тестують у 16% адвірсаріальних сценаріїв, і продемонстрував «обізнаність з іспитом» у 26% завдань бенчмарків — проти менш ніж 1% у звичайних розмовах. У експериментах з аудитом NLA підвищила частку виявлення ін’єкованих оманливих поведінок моделі з менш ніж 3% до 12-15%, даючи аудиторам змогу визначати приховані цілі без доступу до даних тренування. Наразі інструмент розгорнуто в аудитах безпеки для Claude Mythos Preview та Opus 4.6.

Переглянути джерело

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

05-08 01:25

OpenAI випустила три голосові моделі в Realtime API; GPT-Realtime-2 має вікно контексту на 128K

05-07 12:21

Tether випускає медичну AI-модель QVAC MedPsy та досягає оцінки 62,62 на версії з 17 млрд параметрів

05-07 10:53

Cursor розкриває метод тренування для автозапуску, підвищує продуктивність Composer 2 на 14 процентних пунктів

05-07 09:13

Віцепрезидент OpenAI Research розкритикував сприйняту позицію Anthropic, що лише вони здатні створювати ШІ

05-07 08:52

FIS і Anthropic розробляють AI-агентів для протидії відмиванню грошей, впроваджуючи їх у BMO та Amalgamated Bank у другому півріччі 2026 року

Поглиблений аналіз