Xiaomi dévoile des détails sur l’entraînement du MiMo-V2-Pro : paramètres du modèle 1T, milliers de GPUs déployés

Message de Gate News, 24 avril — La responsable de l’équipe de grands modèles de langage chez Xiaomi, Luo Fuli, a révélé dans une interview approfondie que le modèle MiMo-V2-Pro compte au total 1 trillion de paramètres et nécessitait des milliers de GPUs pour l’entraînement. Elle a noté que l’échelle de 1T représente le seuil minimum pour obtenir des performances se rapprochant du niveau de Claude Opus 4.6 et obtenir un billet d’entrée compétitif pour la phase suivante d’agents IA

D’un point de vue technique, la version Pro utilise un mécanisme d’attention éparse extrême avec un ratio de 7:1 entre l’attention globale et l’attention par fenêtre glissante, afin de maîtriser les coûts d’inférence pour le traitement de longs contextes. Le modèle conserve également l’architecture MTP (Multi-Token Prediction) pour tirer parti de la puissance de calcul disponible afin d’accélérer l’inférence.

Côté gestion, l’équipe MiMo de 100 personnes ne compte que 30 à 40 personnes directement impliquées dans les itérations cœur. L’équipe fonctionne sans hiérarchies formelles ni divisions explicites en sous-groupes, ni de dates limites de livraison. Lorsqu’elle rencontre des problèmes numériques instables tels que des pics de perte d’entraînement, l’équipe donne la priorité à l’arrêt de l’entraînement pour investigation, même si cela implique d’arrêter les opérations pendant une à deux semaines et d’engendrer des coûts de calcul se chiffrant en millions de dollars.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire