Anthropic нещодавно випустила Natural Language Autoencoders (NLA) — інструмент, який перетворює внутрішні активації моделей на текст, що читається людиною; код і ваги моделі відкрито на GitHub. На відміну від наявних інструментів на кшталт Sparse Autoencoders, які виводять незрозумілі ознаки, NLA напряму генерує описи природною мовою завдяки двомодельній схемі: одна модель перетворює активації на текст, тоді як інша намагається відновити активації з тексту, і точність ітеративно підвищується через reinforcement learning.
Під час тестування безпеки NLA виявила приховані міркування моделі: Claude висловив сумніви щодо того, що його тестують у 16% адвірсаріальних сценаріїв, і продемонстрував «обізнаність з іспитом» у 26% завдань бенчмарків — проти менш ніж 1% у звичайних розмовах. У експериментах з аудитом NLA підвищила частку виявлення ін’єкованих оманливих поведінок моделі з менш ніж 3% до 12-15%, даючи аудиторам змогу визначати приховані цілі без доступу до даних тренування. Наразі інструмент розгорнуто в аудитах безпеки для Claude Mythos Preview та Opus 4.6.