Xiaomi Revela Detalles del Entrenamiento de MiMo-V2-Pro: Parámetros de Modelo 1T, Miles de GPUs Desplegadas

Mensaje de Gate News, 24 de abril — la jefa del equipo de modelos de lenguaje de Xiaomi, Luo Fuli, reveló en una entrevista en profundidad que el modelo MiMo-V2-Pro cuenta con un total de 1 billón de parámetros y que requirió miles de GPUs para el entrenamiento. Señaló que la escala de 1T representa el umbral mínimo para lograr un rendimiento cercano al nivel de Claude Opus 4.6 y asegurar un pase de entrada competitivo para la siguiente fase de agentes de IA.

Técnicamente, la versión Pro emplea un mecanismo extremo de atención dispersa con una proporción 7:1 entre la atención global y la atención de ventana deslizante, controlando los costos de inferencia para el procesamiento de contextos largos. El modelo también conserva la arquitectura MTP (Multi-Token Prediction) para aprovechar el exceso de potencia de cómputo y lograr una inferencia más rápida.

En el aspecto de gestión, el equipo MiMo de 100 personas solo cuenta con 30-40 integrantes involucrados directamente en las iteraciones principales. El equipo opera sin jerarquías formales ni divisiones explícitas de subgrupos, y sin fechas límite de entrega. Cuando se encuentran problemas numéricos inestables como picos en la pérdida de entrenamiento, el equipo prioriza detener el entrenamiento para investigarlo, incluso si eso significa detener las operaciones durante una o dos semanas y asumir costos de cómputo de millones de dólares.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios