Mensagem do Gate News, 29 de abril — Os pesos do modelo flash Ling-2.6 da Ant Group agora foram disponibilizados como código aberto, após anteriormente estarem disponíveis apenas via API. O modelo tem 104 bilhões de parâmetros no total, com 7,4 bilhões ativados por inferência, uma janela de contexto de 256K e licenciamento MIT. Versões de precisão BF16, FP8 e INT4 estão disponíveis no HuggingFace e no ModelScope.
O Ling-2.6-flash introduz melhorias híbridas de atenção linear sobre o Ling 2.0, atualizando o GQA original para uma arquitetura híbrida 1:7 MLA mais Lightning Linear, combinada com MoE altamente esparso. A eficiência da inferência excede significativamente a de modelos comparáveis: a velocidade máxima de geração chega a 340 tokens/s em 4 GPUs H20, com throughput de prefill e decode aproximadamente 4x maior do que em modelos comparáveis de código aberto. Benchmarks relacionados a agentes mostram forte desempenho: BFCL-V4, TAU2-bench, SWE-bench Verified (61.2%), Claw-Eval e PinchBench atingem ou se aproximam de níveis SOTA. Em toda a suíte de benchmarks do Artificial Analysis, o consumo total de tokens é de apenas 15 milhões. No AIME 2026, o modelo marcou 73,85%.
O site oficial da Ant Group também lista a versão carro-chefe Ling-2.6-1T (trilion-parameter) e a versão leve Ling-2.6-mini (lightweight version), embora, até a publicação, seus pesos permaneçam não lançados no HuggingFace, com apenas a série flash disponível para download.