小米揭露 MiMo-V2-Pro 訓練細節:1T 模型參數,部署數千台 GPU

Gate 新聞訊息,4 月 24 日——小米大型語言模型團隊負責人 羅福立 在一場深入採訪中披露,MiMo-V2-Pro 模型總計擁有 1 兆(trillion)參數,訓練過程需要數千台 GPU。她指出,1T 規模代表達成性能接近 Claude Opus 4.6 等級所需的最低門檻,並取得下一階段 AI 代理的競爭性入場票。

技術層面,Pro 版本採用極致稀疏注意力機制,將全域注意力與滑動視窗注意力的比例設為 7:1,以控制長上下文處理的推論成本。模型也保留了 MTP (Multi-Token Prediction) 架構,利用剩餘算力以實現更快的推論。

在管理方面,100 人規模的 MiMo 團隊中,只有 30-40 人直接參與核心迭代。團隊運作不設正式階層,也沒有明確的分組或交付截止期限。當遇到不穩定的數值問題,例如訓練損失激增時,團隊會優先考慮暫停訓練以便調查,即使這意味著停止運作一到兩週,並因此產生數百萬美元的算力成本。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆