Tin tức từ Gate, ngày 29 tháng 4 — Trọng số mô hình Ling-2.6-flash của Ant Group hiện đã được mở mã nguồn công khai, trước đây chỉ có sẵn thông qua API. Mô hình có tổng cộng 104 tỷ tham số với 7,4 tỷ tham số được kích hoạt cho mỗi lần suy luận, cửa sổ ngữ cảnh 256K và giấy phép MIT. Các phiên bản độ chính xác BF16, FP8 và INT4 có sẵn trên HuggingFace và ModelScope.
Ling-2.6-flash giới thiệu các cải tiến chú ý tuyến tính lai (hybrid linear attention) so với Ling 2.0, nâng cấp GQA gốc lên kiến trúc hybrid 1:7 MLA kết hợp Lightning Linear, cùng với MoE có độ thưa cực cao. Hiệu suất suy luận vượt đáng kể các mô hình tương đương: tốc độ tạo đỉnh đạt 340 token/giây trên 4 GPU H20, với thông lượng prefill và decode cao hơn khoảng 4 lần so với các mô hình mã nguồn mở tương đương. Các benchmark liên quan đến tác nhân cho thấy hiệu suất mạnh: BFCL-V4, TAU2-bench, SWE-bench Verified (61,2%), Claw-Eval và PinchBench đạt hoặc tiến gần mức SOTA. Trong toàn bộ bộ bài benchmark Artificial Analysis, tổng mức tiêu thụ token chỉ là 15 triệu. Trên AIME 2026, mô hình đạt 73,85%.
Trang web chính thức của Ant Group cũng liệt kê phiên bản flagship Ling-2.6-1T (phiên bản nghìn tỷ tham số) và phiên bản nhẹ (lightweight) Ling-2.6-mini (phiên bản nhẹ), tuy nhiên tính đến thời điểm xuất bản, trọng số của họ vẫn chưa được phát hành trên HuggingFace, chỉ có dòng flash hiện có thể tải xuống.