أصدرت Google DeepMind DiffusionGemma، وهو عضو جديد في عائلة نماذج Gemma 4 المفتوحة، ويُنتج النص عبر المعالجة المتوازية بدلاً من توليد الرموز بشكل تسلسلي واحداً تلو الآخر. يحقق النموذج أداءً أسرع وأكثر كفاءة على العتاد المحلي بما في ذلك أنظمة Nvidia DGX ووحدات معالجة الرسوميات لألعاب المستهلكين. على عكس النماذج ذاتية الانحدار التي تُنتج النص من اليسار إلى اليمين رمزاً واحداً في كل مرة، يستخدم DiffusionGemma نهجاً قائماً على الانتشار يشبه نماذج توليد الصور، حيث يبدأ من رموز بديلة ثم يُحسّنها على عدة مراحل لإخراج كتل نصية كاملة في وقت واحد. يتيح هذا التحول المعماري سرعة إخراج تقارب أربع مرات مقارنةً بنماذج Gemma ذاتية الانحدار مماثلة الحجم، مع الملاءمة ضمن حدود الذاكرة لأجهزة GPU عالية الفئة لدى المستهلكين.
DiffusionGemma يستخدم بنية قائمة على الانتشار لتوليد نص متوازٍ
معظم نماذج الذكاء الاصطناعي مصممة لتكون ذاتية الانحدار، وتوليد النص من اليسار إلى اليمين رمزاً واحداً في كل مرة. يمتلك DiffusionGemma أوجه تشابه أكبر مع نماذج توليد الصور، التي تبدأ بمدخلات ثابتة ثم تزيل الضجيج عنها لإنشاء المحتوى المطلوب. يأخذ هذا النموذج حيزاً من رموز بديلة تعمل فوق «اللوحة» عدة مرات لتوليد رموز مرجحة، ثم يستخدمها لتحسين تقدير الرموز الأخرى. وفي نهاية العملية، يُكمل النموذج مخرجاته من الرموز في كتلة واحدة كبيرة—«لوحة النص بعد إزالة الضجيج».
يُعد DiffusionGemma نموذجاً من نوع Mixture of Experts (MoE) بإجمالي 26 مليار معلمة، لكن يتم تفعيل 3.8 مليار فقط أثناء الاستدلال. وهذا يعني أنه ينبغي أن يتسع داخل مخصص ذاكرة 18GB من الوصول العشوائي على وحدة GPU عالية الفئة. يغير هذا الأسلوب عنق الزجاجة من عرض نطاق الذاكرة إلى القدرة الحاسوبية، إذ يولد حتى 256 رمزاً بالتوازي.
النموذج يحقق 700-1000+ رمزاً في الثانية عبر تكوينات أجهزة مختلفة
خلال الاختبارات باستخدام RTX 5090، يخرج DiffusionGemma قرابة 700 رمز في الثانية. ومع مسرّع ذكاء اصطناعي واحد من Nvidia H100، يمكن لـ DiffusionGemma إنتاج 1,000+ رمز في الثانية. وهذا يعادل تقريباً أربع مرات سرعة الإخراج لدى نماذج Gemma ذاتية الانحدار مماثلة الحجم.
DiffusionGemma يُظهر مزايا في حل مهام غير خطية
تقول Google إن هذا يوفّر دفعة قابلة للقياس في مهام غير خطية مثل التحرير داخل السطر، وتسلسل الجزيئات، ورسم المخططات الرياضية. تم ضبط DiffusionGemma لحل ألغاز Sudoku، وهي مهمة شديدة التعقيد بالنسبة لنماذج الذكاء الاصطناعي ذاتية الانحدار القياسية لأن كل رمز يعتمد على رموز مستقبلية. تجعل قدرة DiffusionGemma على التصحيح الذاتي المستمر لمجموعات كبيرة من الرموز تلك المهمة أسهل.
الأسئلة الشائعة
ما هو DiffusionGemma وكيف يختلف عن نماذج ذكاء اصطناعي أخرى؟
DiffusionGemma هو نموذج ذكاء اصطناعي مفتوح جديد من Google DeepMind يستخدم بنية قائمة على الانتشار لتوليد النص بالتوازي بدلاً من توليده بشكل تسلسلي. على عكس النماذج ذاتية الانحدار التي تُنتج النص رمزاً واحداً في كل مرة من اليسار إلى اليمين، يبدأ DiffusionGemma من رموز بديلة ويُحسنها على عدة تمريرات، ثم يُنجز كتل نصية كاملة في وقت واحد، على نحو مشابه لكيفية قيام نماذج توليد الصور بإزالة الضجيج عن بيانات ثابتة لإنتاج صور متماسكة.
ما مدى سرعة DiffusionGemma مقارنةً ببقية نماذج Gemma؟
يُنتج DiffusionGemma قرابة 700 رمز في الثانية على وحدة GPU RTX 5090 وأكثر من 1,000 رمز في الثانية على مسرّع ذكاء اصطناعي واحد من Nvidia H100. يمثل هذا تقريباً أربع مرات سرعة الإخراج مقارنةً بنماذج Gemma ذاتية الانحدار مماثلة الحجم، مع ملاءمة ضمن تخصيص ذاكرة 18GB لدى وحدات GPU الاستهلاكية عالية الفئة عبر بنية Mixture of Experts بإجمالي 26 مليار معلمة و3.8 مليار معلمة مُفعّلة أثناء الاستدلال.
ما أنواع المهام التي يؤدي فيها DiffusionGemma أداءً أفضل؟
تذكر Google أن DiffusionGemma يوفر تحسناً قابلاً للقياس في مهام غير خطية تشمل التحرير داخل السطر، وتسلسل الجزيئات، ورسم المخططات الرياضية، وحل ألغاز Sudoku. تجعل قدرة النموذج على التصحيح الذاتي المستمر لمجموعات كبيرة من الرموز فعّالة بشكل خاص في المهام التي تعتمد فيها كل رموز على رموز مستقبلية، وهي مهام يَصعُب التعامل معها عادةً بالنسبة لنماذج الذكاء الاصطناعي ذاتية الانحدار القياسية.