Tin cổng, ngày 24 tháng 4 — DeepSeek đã phát hành loạt mô hình mã nguồn mở V4 theo Giấy phép MIT, với trọng số hiện đã có trên Hugging Face và ModelScope. Loạt này bao gồm hai mô hình (MoE) dạng mixture-of-experts: V4-Pro với 1,6 nghìn tỷ tham số tổng và 49 tỷ tham số được kích hoạt mỗi token, và V4-Flash với 284 tỷ tham số tổng và 13 tỷ tham số được kích hoạt mỗi token. Cả hai đều hỗ trợ cửa sổ ngữ cảnh 1 triệu token.
Kiến trúc có ba nâng cấp chính: một cơ chế attention lai kết hợp attention thưa nén (CSA) và attention nén mạnh (HCA), giúp giảm đáng kể chi phí phát sinh cho ngữ cảnh dài—FLOPs suy luận của V4-Pro cho ngữ cảnh 1M chỉ bằng 27% của V3.2, và bộ nhớ đệm KV (VRAM) để lưu thông tin lịch sử trong quá trình suy luận( chỉ bằng 10% của V3.2; các siêu liên kết ràng buộc đa tạp )mHC( thay thế các kết nối residual truyền thống để tăng cường độ ổn định lan truyền tín hiệu giữa các lớp; và bộ tối ưu hóa Muon để hội tụ huấn luyện nhanh hơn. Tiền huấn luyện sử dụng hơn 32 nghìn tỷ token dữ liệu.
Hậu huấn luyện áp dụng phương pháp hai giai đoạn: đầu tiên huấn luyện các chuyên gia theo miền thông qua supervised fine-tuning )SFT( và học tăng cường GRPO, sau đó hợp nhất chúng thành một mô hình thông qua chưng cất trực tuyến. V4-Pro-Max )highest inference mode tuyên bố là mô hình mã nguồn mở mạnh nhất với các bộ đánh giá mã hóa hàng đầu và khoảng cách thu hẹp đáng kể so với các mô hình “biên” mã nguồn đóng về các tác vụ suy luận và tác nhân. V4-Flash-Max đạt hiệu năng suy luận tầm Pro với đủ ngân sách tính toán nhưng bị giới hạn bởi quy mô tham số đối với kiến thức thuần túy và các tác vụ tác nhân phức tạp. Trọng số được lưu ở độ chính xác kết hợp FP4+FP8.