Message de Gate News, 29 avril — Les poids du modèle flash Ling-2.6 d’Ant Group sont désormais open source, alors qu’ils n’étaient auparavant disponibles que via une API. Le modèle présente 104 milliards de paramètres au total, 7,4 milliards activés par inférence, une fenêtre de contexte de 256K et une licence MIT. Des versions de précision BF16, FP8 et INT4 sont disponibles sur HuggingFace et ModelScope.
Ling-2.6-flash introduit des améliorations de l’attention linéaire hybride par rapport à Ling 2.0, en passant de la GQA originale à une architecture hybride 1:7 MLA plus Lightning Linear combinée à un MoE hautement clairsemé. L’efficacité de l’inférence dépasse nettement celle des modèles comparables : la vitesse de génération maximale atteint 340 jetons/s sur 4 GPU H20, avec un débit de préremplissage et de décodage environ 4 fois plus élevé que celui des modèles open source comparables. Les benchmarks liés aux agents montrent de solides performances : BFCL-V4, TAU2-bench, SWE-bench Verified (61.2%), Claw-Eval et PinchBench atteignent ou se rapprochent des niveaux SOTA. Sur l’ensemble de la suite de benchmarks Artificial Analysis, la consommation totale de jetons n’est que de 15 millions. Sur AIME 2026, le modèle a obtenu 73,85%.
Le site officiel d’Ant Group répertorie également la version phare Ling-2.6-1T (à mille milliards de paramètres) et la version allégée Ling-2.6-mini (légère), bien que, au moment de la publication, leurs poids restent non publiés sur HuggingFace, seuls les modèles de la série flash étant disponibles au téléchargement.