Tin tức Cổng, ngày 24 tháng 4 — Trưởng nhóm mô hình ngôn ngữ lớn của Xiaomi, Luo Fuli, đã tiết lộ trong một cuộc phỏng vấn chuyên sâu rằng mô hình MiMo-V2-Pro có tổng cộng 1 nghìn tỷ tham số và để huấn luyện cần hàng nghìn GPU. Cô cho biết quy mô 1T là ngưỡng tối thiểu để đạt hiệu năng tiến gần tới Claude Opus 4.6 và giành vé vào cửa cạnh tranh cho giai đoạn tiếp theo của các tác nhân AI.
Về mặt kỹ thuật, phiên bản Pro sử dụng cơ chế chú ý thưa cực đoan với tỷ lệ 7:1 giữa chú ý toàn cục và chú ý theo cửa sổ trượt, nhằm kiểm soát chi phí suy luận cho xử lý ngữ cảnh dài. Mô hình cũng giữ lại kiến trúc MTP (Dự đoán Nhiều Token) để tận dụng phần năng lực tính toán dư thừa cho suy luận nhanh hơn.
Về phía quản lý, đội MiMo gồm 100 người chỉ có 30-40 người trực tiếp tham gia vào các vòng lặp cốt lõi. Nhóm hoạt động mà không có phân cấp chính thức hay chia tách nhóm con rõ ràng, cũng như không có hạn chót giao hàng. Khi gặp các vấn đề số học không ổn định như việc tăng vọt loss trong huấn luyện, nhóm ưu tiên dừng huấn luyện để điều tra, ngay cả khi điều đó đồng nghĩa với việc dừng hoạt động trong một hoặc hai tuần và phát sinh chi phí tính toán lên tới hàng triệu đô la.