De acuerdo con Ryan Lee, director de relaciones con desarrolladores de MiniMax, la empresa ha publicado como open-source MiniMax Sparse Attention (MSA), una biblioteca de atención de alto rendimiento para GPU NVIDIA Blackwell (SM100), bajo la licencia MIT. Lee anunció que los pesos del modelo M3 se lanzarán el viernes 13 de junio.
Cuando se aplica a la inferencia de contexto de un millón de tokens de MiniMax-M3, MSA reduce el cómputo de la atención en 28,4x en comparación con Dense GQA con una configuración equivalente. En GPU H800, la biblioteca logró una mejora de pre-fill de 14,2x y una aceleración de decodificación de 7,6x.