Gate 新聞訊息,4 月 24 日——小米大型語言模型團隊負責人 羅福立 在一場深入採訪中披露,MiMo-V2-Pro 模型總計擁有 1 兆(trillion)參數,訓練過程需要數千台 GPU。她指出,1T 規模代表達成性能接近 Claude Opus 4.6 等級所需的最低門檻,並取得下一階段 AI 代理的競爭性入場票。
技術層面,Pro 版本採用極致稀疏注意力機制,將全域注意力與滑動視窗注意力的比例設為 7:1,以控制長上下文處理的推論成本。模型也保留了 MTP (Multi-Token Prediction) 架構,利用剩餘算力以實現更快的推論。
在管理方面,100 人規模的 MiMo 團隊中,只有 30-40 人直接參與核心迭代。團隊運作不設正式階層,也沒有明確的分組或交付截止期限。當遇到不穩定的數值問題,例如訓練損失激增時,團隊會優先考慮暫停訓練以便調查,即使這意味著停止運作一到兩週,並因此產生數百萬美元的算力成本。