Gate 新闻消息,4月29日——蚂蚁集团的 Ling-2.6-flash 模型权重现已开源;此前仅通过 API 提供。该模型总计包含 1040 亿参数,每次推理激活 74 亿参数,拥有 256K 的上下文窗口,并采用 MIT 许可。BF16、FP8 和 INT4 精度版本可在 HuggingFace 和 ModelScope 上获取。
Ling-2.6-flash 相较于 Ling 2.0 引入了混合线性注意力改进,将原始 GQA 升级为 1:7 MLA 加 Lightning Linear 的混合架构,并结合高度稀疏的 MoE。推理效率显著超过可比模型:在 4x H20 GPU 上峰值生成速度达到 340 tokens/s,预填充(prefill)与解码(decode)的吞吐量约为可比开源模型的 4 倍。与智能体相关的基准测试显示出强劲表现:BFCL-V4、TAU2-bench、SWE-bench Verified (61.2%)、Claw-Eval 和 PinchBench 达到或接近 SOTA 水平。在完整的 Artificial Analysis 基准测试套件中,总令牌消耗仅为 1500 万。在 AIME 2026 上,该模型得分为 73.85%。
蚂蚁集团的官方网站也列出了 Ling-2.6-1T (万亿参数旗舰版本) 以及 Ling-2.6-mini (轻量版本);不过截至发布时,其权重仍未在 HuggingFace 上释出,只有 flash 系列可用于下载。