小米 MiMo-V2.5 系列開源:相較 GPT-5.4 的 1T 參數,具有更優的 token 效率

Gate 新聞訊息,4月27日——小米的 MiMo 團隊已在 MIT 授權下開源 MiMo-V2.5 系列大型語言模型,支援商業部署、持續訓練與微調。兩個模型都具備 100 萬 token 的上下文視窗。MiMo-V2.5-Pro 是一種純文字的專家混合 (MoE) 模型,總參數為 1.02 兆(trillion),啟用參數為 420 億;而 MiMo-V2.5 是原生多模態模型,總參數為 3100 億,啟用參數為 150 億,支援文字、圖像、影片與音訊理解。

MiMo-V2.5-Pro 目標鎖定複雜的代理(agent)與程式設計任務。在 ClawEval 基準測試中,它在每個任務軌跡約消耗 70,000 個 token 的情況下達成 64% 的 Pass@3——相較 Claude Opus、Gemini 3.1 Pro 與 GPT-5.4,token 減少 40% 到 60%。該模型在 SWE-bench Verified 上得分 78.9。在一項展示中,V2.5-Pro 能在 4.3 小時內、透過 672 次工具呼叫,獨立完成為北京大學編譯器課程專案開發的完整 SysY-to-RISC-V 編譯器,並在隱藏測試集上取得 233/233 的滿分。

MiMo-V2.5 專為多模態代理情境而設計,配備專用的視覺編碼器 (729 million parameters) 與音訊編碼器 (261 million parameters),在 Claw-Eval 的一般子集上得分 62.3。兩個模型採用結合滑動視窗注意力 (SWA) 與全域注意力 (GA) 的混合架構,並搭配 3 層的多 token 預測 (MTP) 模組以加速推論。模型權重可在 Hugging Face 取得。

在開源發布的同時,MiMo 團隊推出了「Orbit Quadrillion Token Creator Incentive Program(Orbit Quadrillion Token Creator 獎勵計畫)」,向全球使用者在 30 天內免費提供 100 兆 token。個別開發者、團隊與企業可透過計畫頁面申請,評估週期約為 3 個工作日;核准後的權益將以 Token Plans 或直接抵扣的形式分發,並與像 Claude Code、Cursor 等工具相容。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆