وبحسب تقارير، أطلق باحثون من NVIDIA ومعهد ماساتشوستس للتكنولوجيا Lightning OPD (Offline On-Policy Distillation)، وهو إطار عمل جديد لما بعد التدريب لنماذج اللغات الكبيرة يُلغي الحاجة إلى إبقاء نموذج المعلم قيد التشغيل أثناء التدريب. ومن خلال المعالجة المسبقة لاحتمالات السجل الخاصة بنموذج المعلم دون اتصال بالإنترنت، يعزز الإطار كفاءة التدريب بمقدار 4 أضعاف، مع تحرير جميع موارد وحدات معالجة الرسومات للتدريب على نموذج الطالب.
وبالاختبار على 8 وحدات NVIDIA H100 GPU، نجح Lightning OPD في تقطير Qwen3-30B-A3B-Base (وهو نموذج MoE تبلغ معلماته 30 ملياراً) وحقق 71.0 في معيار AIME 2024، في حين تعذر على OPD القياسي العمل بسبب نفاد الذاكرة على الأجهزة نفسها. وبالنسبة لنموذج Qwen3-8B الأصغر، تطلب الإطار 30 ساعة GPU فقط للوصول إلى 69.9 نقطة.