Mensaje de Gate News, 29 de abril — Los pesos del modelo flash Ling-2.6 de Ant Group ahora se han publicado como código abierto, después de haber estado disponibles previamente solo vía API. El modelo cuenta con 104 mil millones de parámetros totales, con 7.4 mil millones activados por inferencia, una ventana de contexto de 256K y licencia MIT. Hay versiones de precisión BF16, FP8 e INT4 disponibles en HuggingFace y ModelScope.
Ling-2.6-flash introduce mejoras en la atención lineal híbrida sobre Ling 2.0, actualizando el GQA original a una arquitectura híbrida 1:7 MLA plus Lightning Linear combinada con MoE altamente disperso. La eficiencia de inferencia supera significativamente a la de modelos comparables: la velocidad máxima de generación alcanza 340 tokens/s en 4 GPUs H20, con un rendimiento de prefill y decode aproximadamente 4 veces mayor que el de modelos comparables de código abierto. Los puntos de referencia relacionados con agentes muestran un rendimiento sólido: BFCL-V4, TAU2-bench, SWE-bench Verified (61.2%), Claw-Eval y PinchBench logran o se acercan a niveles SOTA. En toda la suite de benchmarks de Artificial Analysis, el consumo total de tokens es de solo 15 millones. En AIME 2026, el modelo obtuvo 73.85%.
El sitio web oficial de Ant Group también lista las versiones insignia Ling-2.6-1T (de cientos de miles de millones de parámetros) y Ling-2.6-mini (de versión ligera), aunque a la fecha de publicación, sus pesos aún no se han lanzado en HuggingFace, con solo la serie flash disponible para descarga.