Сообщение Gate News, 24 апреля — руководитель команды большой языковой модели Xiaomi Луо Фули в подробном интервью раскрыла, что модель MiMo-V2-Pro в сумме имеет 1 триллион параметров и для обучения потребовала тысячи GPU. Она отметила, что масштаб 1T представляет собой минимальный порог для достижения производительности, приближающейся к уровню Claude Opus 4.6, и получения конкурентного входного билета на следующий этап ИИ-агентов.
Технически версия Pro использует механизм экстремально разреженного внимания с соотношением 7:1 между глобальным вниманием и вниманием в скользящем окне, чтобы контролировать затраты на инференс при обработке длинного контекста. Модель также сохраняет архитектуру MTP (Multi-Token Prediction), чтобы задействовать избыточную вычислительную мощность для более быстрого инференса.
Со стороны управления команда MiMo численностью 100 человек имеет лишь 30–40 сотрудников, непосредственно вовлеченных в ключевые итерации. Команда работает без формальных иерархий или явных делений на подгруппы и без фиксированных дедлайнов поставки. При столкновении с нестабильными численными проблемами, такими как всплески training loss, команда в первую очередь приостанавливает обучение для расследования, даже если это означает остановку работы на одну-две недели и понесение затрат в миллионы долларов на вычисления.