Сообщение Gate News от 29 апреля — веса модели Ling-2.6-flash от Ant Group теперь открыты для свободного распространения: ранее они были доступны только через API. Модель включает 104 миллиарда общих параметров, 7,4 миллиарда активируемых параметров на один вывод, окно контекста 256K и лицензию MIT. Доступны версии с точностью BF16, FP8 и INT4 на HuggingFace и ModelScope.
Ling-2.6-flash вносит улучшения гибридного линейного внимания по сравнению с Ling 2.0: она обновляет исходную GQA до архитектуры 1:7 MLA plus Lightning Linear hybrid в сочетании с высокоспряжённой MoE. Эффективность вывода существенно превосходит аналогичные модели: пиковая скорость генерации достигает 340 токенов/с на 4x GPU H20, при этом пропускная способность prefill и decode примерно в 4 раза выше, чем у сопоставимых открытых моделей. Агентно-ориентированные бенчмарки демонстрируют сильные результаты: BFCL-V4, TAU2-bench, SWE-bench Verified (61.2%), Claw-Eval и PinchBench достигают уровня SOTA или приближаются к нему. Во всём комплекте бенчмарков Artificial Analysis общее потребление токенов составляет лишь 15 миллионов. На AIME 2026 модель набрала 73,85%.
Официальный сайт Ant Group также указывает флагманскую версию Ling-2.6-1T (триллион-параметров) и версию Ling-2.6-mini (облегчённого формата), однако на момент публикации их веса остаются не выпущенными на HuggingFace: для скачивания доступна только серия flash.