ناقش قادة الصناعة في مؤتمر بكين «Zhiyuan» مخاوف توحيد نماذج الذكاء الاصطناعي، في ظل تزايد تقارب أداء تقييم النماذج الرائدة، ويُعتقد أن الفجوة بين النماذج مفتوحة المصدر والمغلقة المصدر لا تتجاوز 3-6 أشهر. ناقش تشين ويغوان، الشريك الإداري في «Bluerun Ventures»، ووانغ تشونغيوان، مدير معهد «Zhiyuan Research Institute»، ووانغ هي، المؤسس العام وCTO في «Galaxy General»، ولي داهاي، الرئيس التنفيذي لـ«MiniMax»، مصادر القيمة طويلة الأجل في عصر النماذج الكبيرة. تناولت الجلسة ما إذا كانت نماذج الذكاء الاصطناعي وصناعات الذكاء المتمثل (المجسد) تتجهان نحو التوحيد، وأين تكمن المزايا التنافسية الدائمة. يرى مراقبون أن المواهب عنصر محوري في المنافسة على صعيد الولايات المتحدة والصين في مجال الذكاء الاصطناعي، مع تمثيل الذكاء المتمثل فرصة الصين لتحقيق لحظات اختراق مماثلة لـ«AlphaGo» و«ChatGPT».
صرّح ووانغ تشونغيوان بأنه رغم أن لوحات ترتيب نماذج النماذج الكبيرة المختلفة مذهلة، فإن القوائم نفسها ليست موثوقة بالكامل، غير أن شركات النماذج التي تجرؤ على إجراء عروض توضيحية مباشرة والدخول في سيناريوهات واقعية تُظهر ثقة، ويمكنها العثور على حلقات بيانات مغلقة داخل سيناريوهات واقعية. وأضاف أن إجمالي تكرار أداء النماذج الكبيرة لا يزال بعيداً عن بلوغ عنق الزجاجة، وأن المسارات التقنية لم تتقارب، وقد تعرض المستقبل أنماطاً متعددة، بما فيها «قوة خارقة واحدة مع لاعبين أقوياء متعددين» أو «عمالقة متعددون يقفون جنباً إلى جنب». ووصّف ووانغ ادعاءات أن الصناعة ستتجه نحو التوحيد بأنها سابقة لأوانها.
وسّع مؤسس «Galaxy General» ووانغ هي النقاش من النماذج اللغوية الكبيرة إلى الذكاء المتمثل. وذكر أن النماذج اللغوية الكبيرة نفسها ما زالت تتضمن متغيرات كثيرة، مع قدر أكبر من عدم اليقين في قدرات الفهم متعدد الوسائط والفيديو. ووصف ووانغ الذكاء المتمثل بأنه حالياً في «المرحلة من GPT-1 إلى GPT-2»، مشيراً إلى أن الصناعة بدأت للتو مرحلة تسارع.
شرح ووانغ هي أن «الخندق التنافسي» للذكاء المتمثل يتمثل في نظام كامل يشمل توريد بيانات المصدر (البيانات الاصطناعية، بيانات البشر، بيانات الروبوتات)، وقدرات تنقية البيانات، وتكرار العتاد والتصميم المشترك بين العتاد والبرمجيات، وقدرات دمج إنتاجية النماذج، وقدرات التسليم النهائي للعتاد. ووصف ذلك بأنه نظام شامل «محارب سداسي»، مؤكداً أنه لا توجد منتجات ناضجة من هذا النوع في أنحاء العالم، وأن الخندق ما يزال عميقاً للغاية.
واستشهد الرئيس التنفيذي لـ«MiniMax» لي داهاي بالنجاح التجاري لـ«Anthropic» باعتباره دليلاً مباشراً ضد التوحيد. وذكر أنه لا يمكن للنماذج الكبيرة أن تكون مجرد «مواهب على شكل حرف T» تملك قدرات عامة أفقية فحسب، بل يجب أن تمتلك نقاط قوة عمودية. وأوضح لي أن «Anthropic» تحولت إلى ظاهرة عالمية لأنها طورت قدرات الترميز إلى مستوى غير مسبوق فوق قاعدة نموذجها العام، ما يدعم تقييماً مالياً مرتفعاً وأداءً تجارياً لافتاً.
وقال لي إن النماذج الكبيرة تتأصل داخل تطور النظام بدلاً من كونها نقاطاً تقنية منعزلة. وأضاف أن تحسين النماذج في المستقبل يجب أن يتناسق بعمق مع سيناريوهات التطبيق، مع تشبيهه بتصميم المحرك الذي يجب أن يتناسق مع المركبة بأكملها، حيث تختلف اتجاهات التحسين جذرياً بين سيارات سباق F1 وسيارات التسوق لشراء البقالة. وذكر لي أنه يجب فصل العالمية التقنية عن العالمية التجارية، وأن تحقيق تجارية ناجحة يتطلب تحسين نماذج متخصصاً للغاية حسب السيناريو، ما يتيح لكل شركة أن تؤسس خندقها الخاص عبر اختيار الاتجاه الصحيح.
شارك ووانغ هي ممارسة «Galaxy General» ضمن نموذج «WAM» (World Action Model). قبل ظهور نموذج «WAM»، استخدمت «Galaxy General» 1 مليار إطار من بيانات المحاكاة للتحقق من إمكانات التدرج في مهارات الإمساك. طورت الشركة «GRASP-VLA» لتحقيق إمساك بصفر تعليمات (zero-shot) لأجسام تعسفية، دون أن تعتمد أي نماذج حالياً على بيانات التحكم عن بُعد الحقيقية للوصول إلى مستويات أداء مكافئة.
وأوضح ووانغ أن ظهور نموذج «WAM» كسر بالكامل عنق الزجاجة الخاص بالبيانات أمام الذكاء المتمثل. فالنماذج التقليدية من نوع «VLA» تتطلب بيانات مع وسوم أفعال ولا يمكن الاعتماد إلا على بيانات الروبوت. يركز «WAM» على «الفعل» باعتباره جوهر العملية، ويجري تخطيطاً على مستوى المشاهدة من خلال التنبؤ بالمستقبل دون الحاجة إلى وسوم الأفعال. وهذا يعني أن الروبوتات يمكنها أن تتعلم مباشرة منطق السلوك من مقاطع فيديو البشر، وأن تصبح البيانات الضخمة من مقاطع الفيديو البشرية مادة تدريب.
وقال ووانغ إن «Galaxy General» نشرت أول ورقة بحثية في العالم عن «WAM» في مارس 2025، وفي أبريل قال جيم فان، مدير مختبر الذكاء المتمثل لدى NVIDIA، إن هدف الروبوتات النهائي هو «WAM». ووصف ووانغ ما قبل تدريب الذكاء المتمثل بأنه دخول فترة انفجارية بلا حدود في الحصول على البيانات. وأضاف أنه خلال العامين القادمين، سيحتفي الذكاء المتمثل بالكامل بلحظة «GPT-3.5»، وأن تذكرة الدخول تتمثل في عشرات الملايين من ساعات بيانات عالية الجودة واستثمارات رأسمالية بمليارات الدولارات.
كشف ووانغ تشونغيوان أن نقاشات الصناعة العام الماضي حول فشل «Scaling Law» جاءت من قلق بأن «بيانات ما قبل التدريب عبر الإنترنت قد استُنفدت». خلال العامين الماضيين، أدت مرحلة ما بعد التدريب، وتحسين الاستدلال، والتطور الذاتي التعاودي للوكيل (Agent) إلى موجة جديدة من تحسينات القدرات. وقال ووانغ إن هذا لا يمثل بالضرورة زيادة في عدد المعلمات في النماذج نفسها، بل يمثل أن كامل النظام أصبح أكثر قدرة تدريجياً، مع تحول الذكاء الاصطناعي من أداة محادثة إلى أداة تنفيذ.
وبصفته معهد أبحاث، يستكشف «Zhiyuan» منحنى النمو القادم للذكاء. خلال العامين الماضيين، تحقق المعهد من نموذج التدرج في المجال متعدد الوسائط، حيث استخدمت سلسلة «Wujie Emu3» أقل من 1% من بيانات متعدد الوسائط، ومع ذلك أظهرت عشرات المليارات من المعلمات تحسناً واضحاً في الأداء. وبدأ المعهد الآن التقدم نحو نماذج أساس عالمية للعالم المادي، مستكشفاً مسارات التدرج لنماذج العالم.
اقترح لي داهاي «قانون كثافة المعرفة» لدى «MiniMax»: ذكاء النماذج الكبيرة ككل = كثافة المعرفة × عدد المعلمات. وكشف أنه عند نشر نماذج طرفية لشركات السيارات العام الماضي، لم يكن بالإمكان تحقيق سوى 1B معلمة، ثم تمت ترقيته إلى 4B هذا العام، ومن المرجح أن يصل إلى عشرات المليارات في العام المقبل. ومع تحسن تقنيات التجزئة (quantization) وارتفاع كثافة المعرفة، فإن النماذج الأقوى بعد التجزئة تشغل الموارد نفسها كما سابقاً، بينما لا يزال توسيع نطاق نماذج الطرفية في بدايته.
وقال لي إن لدى الصناعة استنتاجات مرحلية كثيرة ذات أعمار قصيرة، إذ يجري التطوير باستمرار قلب التصورات القديمة. وأضاف أنه ليس فقط أن للنماذج الطرفية مجالاً واسعاً للنمو، بل إن معالجة السياق الطويل لدى النماذج اللغوية الكبيرة وتحسين استهلاك الطاقة المنخفض ما زالت تحمل إمكانات للتدرج بعيدة عن الاستكشاف بالكامل، وأن الصناعة لا تزال بعيدة عن الوصول إلى مرحلة تقارب.
صرّح ووانغ تشونغيوان بأن تطوير تكنولوجيا الذكاء الاصطناعي يسير على المسار نفسه لتطوير القيادة الذاتية، ولا بد من المرور بعملية من القلق والخوف إلى التكيف والاستخدام، ثم إلى إنشاء منظومات حوكمة كاملة وآليات توزيع المسؤوليات. عندما يمكن للتكنولوجيا أن تحقق تحسيناً في الإنتاجية بمقدار 3-5 مرات، لا يمكن تعطيل تعميمها، وسيتوصل البشر، بعد أن خبروا عدة جولات من موجات التكنولوجيا، إلى حلول حوكمة مقابلة.
وقال لي داهاي إن المجتمع البشري تطور جوهرياً من خلال «التعلم من الأخطاء» — إذ تحمل قواعد سلامة الطائرات وحدود سرعة الطرق كل منها دروساً مؤلمة خلفها. سيُحسن الذكاء الاصطناعي كفاءة اكتشاف الثغرات وإصلاح المشكلات، ما يقلل هذا التكلفة كثيراً، مع تركيز الصناعة عالياً على خطوط أساس السلامة منذ مرحلة بدء التشغيل، وتولي الشركات مسؤولية اجتماعية بشكل استباقي. وأضاف لي أن نمط التعلم من الأخطاء قد يكون صعباً لتجنبه بالكامل، وأن مخاطر السلامة غالباً ما تظهر من أبعاد غير متوقعة، مما يجعل تحسين القواعد عبر الدروس واقعاً يجب التعامل معه.
وبخصوص مزايا التمايز لدى الصين في مجال الذكاء الاصطناعي، ذكر ووانغ تشونغيوان أن سلسلة التوريد الصينية، ومزايا التصنيع، والسوق المحلية الواسعة كافية لاحتضان وتحفيز تنفيذ التكنولوجيا الجديدة، وأن الذكاء المتمثل ونماذج العالم من المرجح أن يصبحا المجالات التي تحقق فيها الصين قيادة متميزة.
وقال ووانغ هي بحزم إن الذكاء المتمثل هو فرصة الصين. وأعرب عن اقتناعه بأن «لحظة AlphaGo» و«لحظة ChatGPT» للذكاء المتمثل سيتحقق كلتاهما في الصين، مؤكداً أنه إذا أُنجزت «من صفر إلى واحد» في الصين، فسيصبح «من واحد إلى مئة» ناضجاً في الصين بالتأكيد.
وأضاف لي داهاي أن العامل الكامن الأكثر جوهرية يتمثل في امتلاك الصين لأكبر عدد في العالم من أذكى المواهب الشابة في مجال الذكاء الاصطناعي، وهو الميزة الأساسية بحد ذاته. ومع دمج مزايا سلسلة التوريد والنظام البيئي والسيناريوهات، ستُحقق الصين تقدماً مهماً حتماً في مجال الذكاء الاصطناعي.
ما المرحلة التي قال عنها «Galaxy General» إن الذكاء المتمثل وصل إليها؟
ذكر ووانغ هي، المؤسس العام وCTO في «Galaxy General»، في مؤتمر بكين «Zhiyuan» أن الذكاء المتمثل حالياً في «المرحلة من GPT-1 إلى GPT-2»، وأن الصناعة بدأت للتو مرحلة تسارع. وأضاف ووانغ أنه خلال العامين القادمين، سيحتفي الذكاء المتمثل بالكامل بلحظة «GPT-3.5»، وأن تذكرة الدخول تتمثل في عشرات الملايين من ساعات بيانات عالية الجودة واستثمارات رأسمالية بمليارات الدولارات.
كيف استجاب المشاركون في الجلسة لمخاوف توحيد نماذج الذكاء الاصطناعي؟
ذكر ووانغ تشونغيوان، مدير «Zhiyuan Research Institute»، أن إجمالي تكرار أداء النماذج الكبيرة بعيد عن بلوغ عنق الزجاجة وأن المسارات التقنية لم تتقارب، معتبراً ادعاءات التوحيد سابقة لأوانها. واستشهد الرئيس التنفيذي لـ«MiniMax» لي داهاي بنجاح «Anthropic» في قدرات الترميز باعتباره دليلاً على أن الشركات يمكنها بناء تمايز عبر نقاط القوة العمودية. ووصف ووانغ هي من «Galaxy General» خندق الذكاء المتمثل التنافسي بأنه نظام كامل يشمل توريد البيانات وتكرار العتاد وقدرات النموذج، مشيراً إلى أنه لا توجد منتجات ناضجة من هذا النوع في العالم.
ما المزايا التي حددتها الجلسة لتطوير الذكاء الاصطناعي في الصين؟
حدد المشاركون في الجلسة عدة مزايا للصين. ذكر ووانغ تشونغيوان أن سلسلة التوريد الصينية ومزايا التصنيع والسوق المحلية الواسعة كافية لتحفيز تنفيذ التكنولوجيا الجديدة. وقال لي داهاي إن الصين تمتلك أكبر عدد من أذكى المواهب الشابة في مجال الذكاء الاصطناعي في العالم بوصفها الميزة الأساسية. وأعرب ووانغ هي عن قناعته بأن لحظات الاختراق للذكاء المتمثل، بما يعادل «AlphaGo» و«ChatGPT»، ستتحقق في الصين، مؤكداً أنه إذا أُنجزت «من صفر إلى واحد» في الصين، فسيصبح «من واحد إلى مئة» ناضجاً في الصين بالتأكيد.
أخبار ذات صلة
دان إيفز يقول إن اندماج SpaceX وTesla يُرجح أن يحدث خلال عام واحد
يقترح الرئيس التنفيذي لشركة مايكروسوفت نادّيلا إطارًا لذكاء اصطناعي يدمج رأس المال البشري ورأس المال الرمزي
الرئيس التنفيذي لشركة MiniMax: نموذج الذكاء الاصطناعي يطابق GPT-4، وتقنيات الوكلاء تحتاج إلى وقت
الرئيس التنفيذي لشركة مايكروسوفت: خندق الذكاء الاصطناعي هو حلقة التعلم المتكاملة، ولا يمكن للشركات أن تفوّض التعلم إلى طرف خارجي
راؤول بال: ستحل القدرة الحاسوبية محل رأس المال، وسيؤدي عنق الزجاجة الذي تفرضه تقنيات الذكاء الاصطناعي إلى إشعال دورة أموال العملات المشفرة «الموجة الثالثة»