Anthropic выпустила естественноязыковые автоэнкодеры, чтобы расшифровывать ход рассуждений ИИ-моделей, и открыла исходный код

Anthropic недавно выпустила Natural Language Autoencoders (NLA) — инструмент, который переводит внутренние активации модели в человекочитаемый текст; код и веса моделей открыты на GitHub. В отличие от существующих инструментов вроде Sparse Autoencoders, которые выдают малопонятные признаки, NLA напрямую генерирует описания на естественном языке через двухмодельную схему: одна модель преобразует активации в текст, а другая пытается восстановить активации по тексту, итеративно повышая точность с помощью обучения с подкреплением.

В тестах на безопасность NLA обнаружила скрытые рассуждения модели: Claude сомневался в том, что его тестируют в 16% от обмана враждебных сценариях, и проявлял «осведомлённость об экзамене» в 26% задач бенчмарка — тогда как в обычных разговорах этот показатель был ниже 1%. В аудиторских экспериментах NLA увеличила скорость обнаружения внедрённого обманного поведения модели с менее чем 3% до 12-15%, позволяя аудиторам выявлять скрытые цели без доступа к данным обучения. В настоящее время инструмент используется в проверках безопасности Claude Mythos Preview и Opus 4.6.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев