XiaomiがMiMo-V2-Proの学習詳細を公開:1Tモデルパラメータ、数千のGPUを投入

Gate Newsメッセージ、4月24日――Xiaomiの大規模言語モデルチームリードであるロウ・フーリが、詳細なインタビューの中で、MiMo-V2-Proモデルは合計1兆パラメータを持ち、学習には数千のGPUが必要だったことを明らかにした。彼女は、1T規模は、Claude Opus 4.6に近い性能を達成し、次の段階のAIエージェントに向けた競争力のある参加チケットを確保するための最低ラインだと述べた。

技術面では、Pro版は、グローバル注意とスライディングウィンドウ注意の比率を7:1とする極端なスパース注意メカニズムを採用しており、長文コンテキスト処理における推論コストを制御している。モデルはまた、より高速な推論のために余剰の計算能力を活用するMTP (Multi-Token Prediction)アーキテクチャも保持している。

運営面では、100人規模のMiMoチームのうち、コアとなる反復作業に直接携わっているのは30〜40人しかいない。チームは正式な階層や明確なサブグループの区分、納期の期限がない状態で運営されている。学習損失の急騰といった不安定な数値問題に遭遇した場合、たとえ1〜2週間の稼働停止を意味し、計算コストとして数百万ドルの損失を被ることになっても、調査のために学習を止めることを優先する。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし