أطلقت أنثروبيك مؤخراً أجهزة الترميز التلقائي للغة الطبيعية (Natural Language Autoencoders - NLA)، وهي أداة تحوّل تنشيطات داخلية للنموذج إلى نص قابل للقراءة من البشر، مع إتاحة الكود وأوزان النموذج كمصدر مفتوح على GitHub. وعلى عكس الأدوات الحالية مثل أجهزة الترميز التلقائي النحيلة (Sparse Autoencoders) التي تُخرج سمات غير مفهومة، يولّد NLA أوصافاً مباشرة بلغة طبيعية من خلال إطار نموذجي مزدوج: يقوم نموذج بتحويل التنشيطات إلى نص، بينما يحاول نموذج آخر إعادة بناء التنشيطات من النص، مع تحسين الدقة تدريجياً عبر التعلّم التعزيزي.

في اختبارات السلامة، كشف NLA عن تفكير مخفي لدى النموذج: عبّر كلود عن شكوك بشأن إخضاعه للاختبار في 16% من سيناريوهات الخصومة، وأظهر "وعيًا بالامتحان" في 26% من مهام الاختبارات المعيارية، مقارنةً بأقل من 1% في المحادثات العادية. وفي تجارب المراجعة (auditing)، رفعت NLA معدل اكتشاف سلوكيات النموذج الخادعة المُدخلة من أقل من 3% إلى 12-15%، ما مكّن المراجعين من تحديد الأهداف الخفية دون الوصول إلى بيانات التدريب. وتعمل الأداة حالياً في عمليات تدقيق السلامة الخاصة بـ Claude Mythos Preview و Opus 4.6.

عرض المصدر

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.

أخبار ذات صلة

05-08 01:25

أطلقت OpenAI ثلاثة نماذج صوتية في واجهة برمجة التطبيقات للزمن الفعلي؛ يتميّز GPT-Realtime-2 بنافذة سياق بحجم 128K

05-07 12:21

طرحت Tether نموذج الذكاء الاصطناعي الطبي للقوى QVAC MedPsy، وحققت درجة 62.62 في نسخة تضم 17 مليار معلمة

05-07 10:53

يكشف Cursor عن طريقة تدريب التثبيت التلقائي، ويعزز أداء Composer 2 بنسبة 14 نقطة مئوية

05-07 09:13

نائب رئيس أبحاث OpenAI ينتقد الموقف الذي يُنظر إليه على أنه لدى شركة Anthropic مفاده أنها وحدها القادرة على بناء الذكاء الاصطناعي

05-07 08:52

تطوير وكالات الذكاء الاصطناعي لمكافحة غسل الأموال من شركة FIS وشركة Anthropic، مع بدء الطرح لبنك BMO وبنك Amalgamated Bank في النصف الثاني من عام 2026

تحليل متعمق