Message de Gate News, 24 avril — La responsable de l’équipe de grands modèles de langage chez Xiaomi, Luo Fuli, a révélé dans une interview approfondie que le modèle MiMo-V2-Pro compte au total 1 trillion de paramètres et nécessitait des milliers de GPUs pour l’entraînement. Elle a noté que l’échelle de 1T représente le seuil minimum pour obtenir des performances se rapprochant du niveau de Claude Opus 4.6 et obtenir un billet d’entrée compétitif pour la phase suivante d’agents IA
D’un point de vue technique, la version Pro utilise un mécanisme d’attention éparse extrême avec un ratio de 7:1 entre l’attention globale et l’attention par fenêtre glissante, afin de maîtriser les coûts d’inférence pour le traitement de longs contextes. Le modèle conserve également l’architecture MTP (Multi-Token Prediction) pour tirer parti de la puissance de calcul disponible afin d’accélérer l’inférence.
Côté gestion, l’équipe MiMo de 100 personnes ne compte que 30 à 40 personnes directement impliquées dans les itérations cœur. L’équipe fonctionne sans hiérarchies formelles ni divisions explicites en sous-groupes, ni de dates limites de livraison. Lorsqu’elle rencontre des problèmes numériques instables tels que des pics de perte d’entraînement, l’équipe donne la priorité à l’arrêt de l’entraînement pour investigation, même si cela implique d’arrêter les opérations pendant une à deux semaines et d’engendrer des coûts de calcul se chiffrant en millions de dollars.