تحققت Mercury 2 التابعة لـ Inception Labs بدرجة 90 في AIME 2026، متفوقة على DiffusionGemma من Google

2026-06-21 16:12:51

قدّمت Inception Labs Mercury 2 يوم الخميس، واصفةً إياها بأنها أسرع نموذج لغة استدلالي في العالم، بمعدل يقارب 1,000 رمز في الثانية. حقق النموذج 90 في معيار AIME 2026، متفوّقاً على DiffusionGemma التي أطلقتها Google مؤخراً، والتي بلغت 69.1% في الاختبار نفسه مع تحقيق سرعات توليد مماثلة. يستخدم كلا النموذجين توليداً متوازياً معتمداً على التشتت (diffusion) بدل معالجة الرموز تسلسلياً، بما يعكس تحولاً معمّماً على مستوى الصناعة نحو أساليب استدلال أسرع.

Mercury 2 يتفوق على DiffusionGemma في معيار الرياضيات

يولّد Mercury 2 نحو 1,000 رمز في الثانية—وهي المقاطع النصية التي تقرأها نماذج الذكاء الاصطناعي وتكتبها—مقابل نحو 89 رمزاً في الثانية بالنسبة إلى Anthropic's Claude Haiku 4.5 Reasoning و71 بالنسبة إلى OpenAI's GPT-5 Mini، وفقاً لإعلان Inception Labs. في AIME 2026، المبني على مشكلات حقيقية من اختبارات American Invitational Mathematics Examination، والذي يُقاس كنسبة المشكلات التي تم حلها بشكل صحيح، سجل Mercury 2 90%. اختبرت Google DiffusionGemma على مجموعة الاختبار نفسها، حيث حققت 69.1%، بينما سجلت Gemma 4 غير القائمة على التشتت 88.3% في الاختبار ذاته.

وعلى GPQA، وهو معيار علوم بمستوى الدكتوراه وجرى تقييمه بالطريقة نفسها، يقترب النموذجان من التعادل: Mercury 2 عند 77% مقابل 73.2% لـ DiffusionGemma. توصي إرشادات مطوري Google باستخدام Gemma 4 القياسي للتطبيقات التي تتطلب أعلى جودة، مع الإقرار بأن DiffusionGemma يتأخر عنه في كل المجالات. تتوفر DiffusionGemma مجاناً وعلى شكل أوزان مفتوحة المصدر على Hugging Face. أما Mercury 2 فهو نموذج API مدفوع ومغلق من حيث الأوزان.

نماذج التشتت تستبدل توليد الرموز تسلسلياً

يتخلى كلا النموذجين عن أسلوب آلة كاتبة الكتابة. يقوم روبوت محادثة قياسي بكتابة كلمة واحدة، ثم التحقق مما كتبه للتو، وبعدها يكتب الكلمة التالية، مع تكرار العملية حتى يكتمل الجواب. بدل ذلك، تقوم نماذج التشتت بملء كتلة نصية برموز بديلة عشوائية ثم إزالة الضجيج عبر عدة تمريرات متوازية—وهي الحيلة نفسها التي تحوّل صورة ثابتة إلى صورة فوتوغرافية في مولدات الصور مثل Stable Diffusion—إلى أن تستقر الكتلة بأكملها في استجابة مكتملة مرة واحدة.

Augment Code تبلغ عن خفض 82% في زمن الاستجابة ضمن الإنتاج

قامت Augment Code، وهي شركة لوكلاء ترميز بالذكاء الاصطناعي، باستبدال Mercury 2 مكان Claude Opus 4.7 من Anthropic في وكيلها الفرعي الخاص بضغط السياق (context-compaction) وشاهدت انخفاضاً بنسبة 82% في زمن الاستجابة (latency) وخفضاً بنسبة 90% في التكلفة، مع الإبلاغ عن جودة المخرجات نفسها، وفقاً لدراسة حالة مشتركة.

Inception Labs تحصل على جولة تمويل بقيمة 50 مليون دولار

جمعت Inception Labs 50 مليون دولار في التمويل بدعم من ذراع Nvidia الاستثماري (venture arm) ومستثمرين أفراد هما Andrew Ng وAndrej Karpathy. بُنيت الشركة الناشئة على أبحاث قام بها مؤسسها Stefano Ermon، أستاذ في جامعة ستانفورد شارك في تأليف بعض تقنيات التشتت المعتمد على الدرجات (score-based diffusion) التي تدعم مولدات الصور الحالية.

التوليد المتوازي يتيح بنية نظام متعدد الوكلاء

تعد الأنظمة المعقدة للذكاء الاصطناعي بمثابة فرق من مساعدين متخصصين: واحد للاستدلال العميق، عدة لعمليات التلخيص السريعة، وآخر لتوجيه الطلبات (routing)، والبحث عن الأدوات، والتحقق من المخرجات. تجعل النماذج التسلسلية هذه الاستدعاءات المساعدة مكلفة وبطيئة. أما نماذج التشتت المتوازية فتجعلها رخيصة وسريعة بما يكفي لاستخدامها بكثرة. يشكل Mercury 2 واجهة برمجة تطبيقات/سحابة (API/cloud) في الوقت الحالي، وما يزال النظام البيئي الكامل—التشغيل المحلي (local runtimes) وأطر الوكلاء (agent frameworks)—يلحق بالركب.

سير عمل حساس للسرعة يستفيد من نهج التشتت

تشمل الاستخدامات البرمجة في الزمن الحقيقي حيث يواكب النموذج التعديلات، أو أنظمة ترميز أو دعم متعددة الوكلاء التي تحدث فيها العديد من الاستدعاءات الفرعية السريعة، أو واجهات صوتية لا تشعر بالتباطؤ، وأي إكمال تلقائي أو توقع إجراء تالٍ حساس للزمن (latency-sensitive). وعلى نطاق واسع، تتراكم وفورات التكلفة والطاقة الناجمة عن ارتفاع الإنتاجية على العتاد القياسي بسرعة، وفقاً لـ Inception Labs.

الأسئلة الشائعة

ماذا أعلنت Inception Labs يوم الخميس؟ قدّمت Inception Labs Mercury 2 يوم الخميس، واصفةً إياه بأنه أسرع نموذج لغة استدلالي في العالم. يولّد نحو 1,000 رمز في الثانية وسجل 90 في معيار AIME 2026.

كيف يقارن Mercury 2 بين Google وDiffusionGemma في المعايير؟ سجل Mercury 2 90 في AIME 2026، بينما سجلت DiffusionGemma من Google 69.1% في الاختبار نفسه. وعلى GPQA، وهو معيار علوم بمستوى الدكتوراه، حقق Mercury 2 77% مقابل 73.2% لـ DiffusionGemma.

ما تحسينات التكلفة وزمن الاستجابة التي أعلنت عنها Augment Code؟ قامت Augment Code باستبدال Mercury 2 مكان Claude Opus 4.7 من Anthropic في وكيلها الفرعي الخاص بضغط السياق (context-compaction) وشاهدت انخفاضاً بنسبة 82% في زمن الاستجابة وخفضاً بنسبة 90% في التكلفة، مع الإبلاغ عن جودة المخرجات نفسها، وفقاً لدراسة حالة مشتركة.

عرض المصدر

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.

أخبار ذات صلة

منذ 1 س

حقق "Mercury 2" من Inception Labs نسبة 90% على AIME 2026، متفوقًا على "DiffusionGemma" من Google

منذ 12 س

أعلنت Tinygrad أن نموذج GLM 5.2 يحقق 120 رمزاً في الثانية على تكوين مزدوج من Blackwell مقابل 150,000 دولار

منذ 14 س

يتصدر Zhipu GLM-5.2 معيار DeepSWE مفتوح المصدر بنتيجة نجاح 44%، متفوقاً على نماذج رئيسية مغلقة المصدر