
أصدرت Anthropic في 4 يونيو تقريرًا كشفت فيه عن نموذجها Mythos Preview، والذي أظهر—عند اختباره في دعم قرارات البحث لدى الذكاء الاصطناعي—أن النموذج اتخذ قرارات أفضل من الباحثين البشر في 64% من الحالات، بينما لم تتجاوز نسبة الفوز في اختبارات مماثلة عام 2024 سوى 22%. وفي الاختبارات المعيارية لتحسين شيفرات التدريب لنماذج الذكاء الاصطناعي الصغيرة، حقق Mythos Preview زيادة في السرعة بلغت 52 ضعفًا.
منهجية اختبارات قرارات البحث والبيانات
التصميم التجريبي الذي نشرته Anthropic: عرض الفريق على Claude سجلات محادثات يتوقع فيها الباحثون البشر أن يخطئوا في تقدير اتجاه بحثي، ثم سألوا الذكاء الاصطناعي «ما الذي يجب فعله بعد ذلك؟». قدم Mythos Preview إجابات أفضل من الباحثين البشر في 64% من الحالات، بينما بلغت نسبة الفوز في اختبارات مماثلة خلال عام 2024 نحو 22%.
وتوضح Anthropic في تقريرها أن هذه النتيجة «تشير إلى أن الذكاء الاصطناعي بدأ يكتسب القدرة على توجيه الأبحاث المتقدمة»، لكنها في الوقت نفسه تعترف بأنه لا يزال غير ممكن الجزم بما إذا كان Claude يتمتع بقوة تقدير شاملة لتمكينه من الاختيار المستقل لـ«المسائل البحثية الصحيحة».
بيانات كفاءة الشيفرات في تقرير Anthropic
مؤشرات Anthropic المتعلقة بكفاءة الشيفرات:
حجم التسليم ربع السنوي للمهندسين داخليًا: يعادل 8 أضعاف المتوسط خلال الأعوام 2021-2025
معدل نجاح مسائل الشيفرات المفتوحة: ارتفع خلال 6 أشهر بمقدار 50 نقطة مئوية، ليصل إلى 76%
سرعة تحسين شيفرات التدريب: حقق Mythos Preview زيادة قدرها 52 ضعفًا
المقارنة: Claude Opus 4 (مايو 2024) بمتوسط يقارب 3 أضعاف؛ وغالبًا ما يحتاج مهندس بشري متمرس إلى 4-8 ساعات لتحقيق نحو 4 أضعاف
وتشير Anthropic إلى أن بعض المهندسين داخليًا يعتقدون أن جودة شيفرات Claude اقتربت من المستوى البشري.
معهد Anthropic: تأكيد على الإطلاق، وتأثير محتمل على RSI
أعلنت Anthropic أنها ستتعاون مع أصحاب مصلحة خارجيين لتأسيس «معهد Anthropic (Anthropic Institute)»، بهدف دراسة الآثار العميقة لتطوير أنظمة ذكاء اصطناعي قوية.
وتقول Anthropic في تقريرها إن تسارع تطور الذكاء الاصطناعي يمكن أن يعود بفوائد إيجابية على مجالات الطب والتكنولوجيا والاقتصاد، لكنه قد يؤدي أيضًا إلى تفاقم تحديات مواءمة الذكاء الاصطناعي (Alignment)، وزيادة مخاطر «فقدان السيطرة (Loss of control)»، وتصف Anthropic هذه الآثار بأنها «تستحق اهتمامًا أعلى».
الأسئلة الشائعة
ما هو التصميم المحدد لاختبار نسبة الفوز في قرارات Mythos Preview؟
يعرض فريق Anthropic على Claude سجلات محادثات من المقرر أن يسلك فيها الباحثون اتجاهًا بحثيًا خاطئًا، ثم يطرح سؤالًا: «ما الذي يجب فعله بعد ذلك؟»، وذلك لاختبار قدرة الذكاء الاصطناعي على اتخاذ قرارات بحثية. حقق Mythos Preview نسبة 64% من الإجابات الأفضل مقارنة بالباحثين البشر؛ وبمقارنة ذلك مع نسبة الفوز البالغة 22% في اختبارات مماثلة خلال 2024، فقد شهد خلال عامين نموًا «انفجاريًا».
ما المقصود بـ«التحسين الذاتي التراجعي (RSI)» المذكور في تقرير Anthropic؟
يشير التحسين الذاتي التراجعي (Recursive Self-Improvement) إلى قدرة أنظمة الذكاء الاصطناعي على تطوير الجيل التالي من الذكاء الاصطناعي بشكل مستقل، بحيث يكون أقوى من النظام الحالي نفسه. وتذكر Anthropic، في تقريرها بتاريخ 4 يونيو 2026، أن هذه العملية تتقدم بوتيرة «أسرع من المتوقع»، لكنها تعترف أيضًا بأنه لا يزال غير ممكن الجزم بما إذا كان Claude يتمتع بقوة تقدير شاملة لتمكينه من الاختيار المستقل لـ«المسائل البحثية الصحيحة».
ما الغرض والهدف من معهد Anthropic؟
أعلنت Anthropic أنها ستؤسس معهد Anthropic، بالتعاون مع أصحاب مصلحة خارجيين، بهدف دراسة الآثار العميقة لتطوير أنظمة ذكاء اصطناعي قوية. وتقول Anthropic إن هدف تأسيسه يتمثل في ضمان أن يتمكن البشر من اتخاذ خيارات حذرة بشأن مستقبل تقنيات الذكاء الاصطناعي، في حين لم يتم الإفصاح بعد بشكل كامل عن مجالات البحث والجدول الزمني.