Mensagem de Gate News, 29 de Abril — Os pesos do modelo Ling-2.6-flash da Ant Group foram agora disponibilizados em código aberto, tendo anteriormente estado apenas disponíveis via API. O modelo apresenta 104 mil milhões de parâmetros totais com 7,4 mil milhões activados por inferência, uma janela de contexto de 256K e licenciamento MIT. Estão disponíveis versões com precisão BF16, FP8 e INT4 no HuggingFace e no ModelScope.
Ling-2.6-flash introduz melhorias na atenção linear híbrida em relação ao Ling 2.0, actualizando o GQA original para uma arquitectura híbrida 1:7 MLA mais Lightning Linear, combinada com MoE altamente esparso. A eficiência de inferência excede significativamente a de modelos comparáveis: a velocidade máxima de geração atinge 340 tokens/s em 4 GPUs H20, com a taxa de throughput de prefill e decode aproximadamente 4x superior à de modelos de código aberto comparáveis. Os benchmarks relacionados com agentes mostram um desempenho forte: BFCL-V4, TAU2-bench, SWE-bench Verified (61.2%), Claw-Eval e PinchBench alcançam ou aproximam níveis SOTA. Em toda a suite de benchmarks de Artificial Analysis, o consumo total de tokens é apenas 15 milhões. No AIME 2026, o modelo obteve 73,85%.
O site oficial da Ant Group também lista a versão flagship Ling-2.6-1T (de bilião de parâmetros) e a versão Ling-2.6-mini (leve), embora, até à data da publicação, os seus pesos permaneçam indisponíveis no HuggingFace, com apenas a série flash disponível para transferência.