Xiaomi Mengungkap Detail Pelatihan MiMo-V2-Pro: Parameter Model 1T, Ribuan GPU Diterjunkan

Pesan Gate News, 24 April — Pemimpin tim model bahasa besar Xiaomi, Luo Fuli, mengungkapkan dalam wawancara mendalam bahwa model MiMo-V2-Pro memiliki total 1 triliun parameter dan memerlukan ribuan GPU untuk pelatihan. Ia mencatat bahwa skala 1T mewakili ambang batas minimum untuk mencapai kinerja yang mendekati tingkat Claude Opus 4.6 dan mendapatkan tiket masuk yang kompetitif untuk fase berikutnya dari agen AI.

Secara teknis, versi Pro menggunakan mekanisme extreme sparse attention dengan rasio 7:1 antara global attention dan sliding window attention, untuk mengendalikan biaya inferensi bagi pemrosesan konteks panjang. Model ini juga mempertahankan arsitektur MTP (Multi-Token Prediction) untuk memanfaatkan kelebihan daya komputasi agar inferensi lebih cepat.

Dari sisi manajemen, tim MiMo yang beranggotakan 100 orang hanya memiliki 30–40 orang yang terlibat langsung dalam iterasi inti. Tim beroperasi tanpa hierarki formal atau pembagian sub-kelompok yang eksplisit, serta tanpa tenggat waktu pengiriman. Saat menghadapi masalah numerik yang tidak stabil seperti lonjakan training loss, tim memprioritaskan menghentikan pelatihan untuk investigasi, bahkan jika itu berarti menghentikan operasi selama satu atau dua minggu dan menimbulkan biaya komputasi hingga jutaan dolar.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar