小米披露 MiMo-V2-Pro 训练细节:1T 模型参数,部署数千台 GPU

Gate News 信息,4月24日——小米大型语言模型团队负责人罗富莉在一场深入采访中披露,MiMo-V2-Pro 模型总计拥有 1 万亿参数,训练所需数千台 GPU。她指出,1T 规模代表达到性能接近 Claude Opus 4.6 水平并为下一阶段 AI 代理获取具有竞争力的入场券所需的最低门槛

从技术层面来看,Pro 版本采用极端稀疏注意力机制,全球注意力与滑动窗口注意力的比例为 7:1,用于控制长上下文处理的推理成本。该模型还保留了 MTP (Multi-Token Prediction) 架构,以利用多余的算力实现更快的推理。

在管理层面,100 人规模的 MiMo 团队中,只有 30-40 人直接参与核心迭代。团队运作没有正式的等级体系,也没有明确的子组划分和交付截止时间。遇到诸如训练损失峰值这类不稳定的数值问题时,团队会优先选择停止训练以便调查,即便这意味着操作停摆一到两周,并因此产生数百万美元的算力成本。

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات