Gate 新聞訊息,4 月 29 日——螞蟻集團的 Ling-2.6-flash 模型權重現已開源釋出;此前該模型的權重僅可透過 API 使用。該模型具備 1040 億(104 billion)總參數,每次推論啟用 74 億(7.4 billion)參數,並提供 256K 上下文視窗,且採用 MIT 授權。HuggingFace 與 ModelScope 提供 BF16、FP8 與 INT4 精度版本。
Ling-2.6-flash 相較 Ling 2.0 引入混合線性注意力改進(hybrid linear attention),將原本的 GQA 升級為「1:7 MLA + Lightning Linear」混合架構,並結合高度稀疏的 MoE。推論效率顯著優於同類模型:在 4x H20 GPU 上,峰值生成速度達到 340 tokens/s;預填充(prefill)與解碼(decode)的吞吐量約為可比開源模型的 4 倍。與代理(Agent)相關的基準測試顯示強勁表現:BFCL-V4、TAU2-bench、SWE-bench Verified (61.2%)、Claw-Eval 與 PinchBench 均達到或接近最新最先進(SOTA)水準。在完整的 Artificial Analysis 基準測試套件中,總 token 消耗僅為 15 million。在 AIME 2026 上,該模型得分為 73.85%。
螞蟻集團官方網站亦列出了 Ling-2.6-1T (trillion-parameter 旗艦版本) 與 Ling-2.6-mini (lightweight 版本);不過截至發布之時,其權重仍未在 HuggingFace 上釋出,僅提供 flash 系列供下載。