D’après des informations, des chercheurs de NVIDIA et du MIT ont publié Lightning OPD (Offline On-Policy Distillation), un nouveau cadre post-entraînement pour les grands modèles de langage qui élimine la nécessité de garder un modèle enseignant en fonctionnement pendant l’entraînement. En précalculant hors ligne les log-probabilités du modèle enseignant, le cadre améliore l’efficacité de l’entraînement de 4x tout en libérant toutes les ressources GPU pour l’entraînement du modèle étudiant.
Lors de tests sur 8 GPU NVIDIA H100, Lightning OPD a réussi à distiller Qwen3-30B-A3B-Base (un modèle MoE de 30 milliards de paramètres) et a atteint 71,0 sur le benchmark AIME 2024, tandis que l’OPD standard a manqué de mémoire sur le même matériel. Pour le modèle Qwen3-8B plus petit, le cadre n’a nécessité que 30 heures de GPU pour atteindre 69,9 points.
Related News
Des dizaines de milliards de nouvelles pousses Thinking Machines présentent un modèle d’IA interactif en temps réel, mettant en avant le slogan « il parle, écoute et exécute pendant qu’il parle ».
Google : de grands modèles de langage sont utilisés pour des attaques réelles, l'IA peut contourner les mécanismes de sécurité de double authentification
Anthropic : les textes de science-fiction utilisés pour entraîner Claude Opus 4 augmentent le taux d’extorsion de 96%