Pesan Gate News, 24 April — Pemimpin tim model bahasa besar Xiaomi, Luo Fuli, mengungkapkan dalam wawancara mendalam bahwa model MiMo-V2-Pro memiliki total 1 triliun parameter dan memerlukan ribuan GPU untuk pelatihan. Ia mencatat bahwa skala 1T mewakili ambang batas minimum untuk mencapai kinerja yang mendekati tingkat Claude Opus 4.6 dan mendapatkan tiket masuk yang kompetitif untuk fase berikutnya dari agen AI.
Secara teknis, versi Pro menggunakan mekanisme extreme sparse attention dengan rasio 7:1 antara global attention dan sliding window attention, untuk mengendalikan biaya inferensi bagi pemrosesan konteks panjang. Model ini juga mempertahankan arsitektur MTP (Multi-Token Prediction) untuk memanfaatkan kelebihan daya komputasi agar inferensi lebih cepat.
Dari sisi manajemen, tim MiMo yang beranggotakan 100 orang hanya memiliki 30–40 orang yang terlibat langsung dalam iterasi inti. Tim beroperasi tanpa hierarki formal atau pembagian sub-kelompok yang eksplisit, serta tanpa tenggat waktu pengiriman. Saat menghadapi masalah numerik yang tidak stabil seperti lonjakan training loss, tim memprioritaskan menghentikan pelatihan untuk investigasi, bahkan jika itu berarti menghentikan operasi selama satu atau dua minggu dan menimbulkan biaya komputasi hingga jutaan dolar.