Theo báo cáo kỹ thuật của DeepSeek, vào ngày 30/4 công ty đã giới thiệu Visual Primitives, một phương pháp nhúng các đơn vị hình ảnh cơ bản như điểm và khung giới hạn vào các chuỗi suy luận nhằm giải quyết vấn đề Reference Gap trong các tác vụ đa phương thức. Phương pháp này giúp giảm mức tiêu thụ token hình ảnh thông qua nén KV cache.
Trong các bộ benchmark đếm và suy luận không gian, cách tiếp cận đạt hiệu năng tương đương với GPT-5.4, Claude-Sonnet-4.6 và Gemini-3-Flash ở một số hạng mục được chọn. DeepSeek cho biết sẽ mở mã nguồn một phần của các benchmark và bộ dữ liệu, đồng thời các trọng số mô hình sẽ được phát hành sau khi tích hợp.