أطلقت شركة Anthropic وحدات ترميز تلقائية للغة طبيعية لفكّ منطق نماذج الذكاء الاصطناعي، مع إتاحة الكود للمصدر المفتوح

أطلقت أنثروبيك مؤخراً أجهزة الترميز التلقائي للغة الطبيعية (Natural Language Autoencoders - NLA)، وهي أداة تحوّل تنشيطات داخلية للنموذج إلى نص قابل للقراءة من البشر، مع إتاحة الكود وأوزان النموذج كمصدر مفتوح على GitHub. وعلى عكس الأدوات الحالية مثل أجهزة الترميز التلقائي النحيلة (Sparse Autoencoders) التي تُخرج سمات غير مفهومة، يولّد NLA أوصافاً مباشرة بلغة طبيعية من خلال إطار نموذجي مزدوج: يقوم نموذج بتحويل التنشيطات إلى نص، بينما يحاول نموذج آخر إعادة بناء التنشيطات من النص، مع تحسين الدقة تدريجياً عبر التعلّم التعزيزي.

في اختبارات السلامة، كشف NLA عن تفكير مخفي لدى النموذج: عبّر كلود عن شكوك بشأن إخضاعه للاختبار في 16% من سيناريوهات الخصومة، وأظهر "وعيًا بالامتحان" في 26% من مهام الاختبارات المعيارية، مقارنةً بأقل من 1% في المحادثات العادية. وفي تجارب المراجعة (auditing)، رفعت NLA معدل اكتشاف سلوكيات النموذج الخادعة المُدخلة من أقل من 3% إلى 12-15%، ما مكّن المراجعين من تحديد الأهداف الخفية دون الوصول إلى بيانات التدريب. وتعمل الأداة حالياً في عمليات تدقيق السلامة الخاصة بـ Claude Mythos Preview و Opus 4.6.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات