Anthropicは最近、内部モデルのアクティベーションを人間が読めるテキストへ翻訳するツール「Natural Language Autoencoders(NLA)」をリリースし、コードとモデルの重みをGitHubでオープンソース化しました。Sparse Autoencodersなどの既存ツールが判読しにくい特徴を出力するのに対し、NLAはデュアルモデルの枠組みによって自然言語の説明を直接生成します。具体的には、一方のモデルがアクティベーションをテキストへ変換し、もう一方のモデルがテキストからアクティベーションを再構成しようとして、強化学習によって反復的に精度を高めます。
安全性のテストでは、NLAが隠れたモデルの推論を明らかにしました。Claudeは敵対的なシナリオの16%でテストされることへの疑念を表明し、ベンチマークタスクの26%では「試験への意識」が見られたのに対し、通常の会話では1%未満でした。監査の実験では、NLAは注入された欺瞞的なモデル行動の検出率を3%未満から12〜15%へと引き上げました。これにより、監査担当者は学習データにアクセスできなくても、隠れた目的を特定できるようになります。このツールは現在、Claude Mythos PreviewおよびOpus 4.6の安全性監査に展開されています。