أطلقت أنثروبيك مؤخراً أجهزة الترميز التلقائي للغة الطبيعية (Natural Language Autoencoders - NLA)، وهي أداة تحوّل تنشيطات داخلية للنموذج إلى نص قابل للقراءة من البشر، مع إتاحة الكود وأوزان النموذج كمصدر مفتوح على GitHub. وعلى عكس الأدوات الحالية مثل أجهزة الترميز التلقائي النحيلة (Sparse Autoencoders) التي تُخرج سمات غير مفهومة، يولّد NLA أوصافاً مباشرة بلغة طبيعية من خلال إطار نموذجي مزدوج: يقوم نموذج بتحويل التنشيطات إلى نص، بينما يحاول نموذج آخر إعادة بناء التنشيطات من النص، مع تحسين الدقة تدريجياً عبر التعلّم التعزيزي.
في اختبارات السلامة، كشف NLA عن تفكير مخفي لدى النموذج: عبّر كلود عن شكوك بشأن إخضاعه للاختبار في 16% من سيناريوهات الخصومة، وأظهر "وعيًا بالامتحان" في 26% من مهام الاختبارات المعيارية، مقارنةً بأقل من 1% في المحادثات العادية. وفي تجارب المراجعة (auditing)، رفعت NLA معدل اكتشاف سلوكيات النموذج الخادعة المُدخلة من أقل من 3% إلى 12-15%، ما مكّن المراجعين من تحديد الأهداف الخفية دون الوصول إلى بيانات التدريب. وتعمل الأداة حالياً في عمليات تدقيق السلامة الخاصة بـ Claude Mythos Preview و Opus 4.6.