D’après Ryan Lee, directeur des relations développeurs de MiniMax, l’entreprise a publié en open source MiniMax Sparse Attention (MSA), une bibliothèque d’attention hautes performances pour les GPU NVIDIA Blackwell (SM100), sous licence MIT. Lee a annoncé que les poids du modèle M3 seront lancés vendredi 13 juin.
Appliquée à l’inférence de contexte de million de tokens de MiniMax-M3, MSA réduit les calculs d’attention de 28,4x par rapport à la Dense GQA à configuration équivalente. Sur les GPU H800, la bibliothèque a atteint un gain de vitesse de pré-remplissage de 14,2x et une accélération du décodage de 7,6x.