وفقاً للتقرير التقني لــ DeepSeek، في 30 أبريل، قدمت الشركة Visual Primitives، وهي طريقة تُضمّن وحدات بصرية أساسية مثل النقاط ومربعات الإحاطة داخل سلاسل الاستدلال لمعالجة مشكلة Reference Gap في المهام متعددة الوسائط. تقلّل الطريقة استهلاك رموز الصور عبر ضغط ذاكرة KV cache.
في اختبارات العدّ والاستدلال المكاني، يطابق هذا النهج أداء GPT-5.4 وClaude-Sonnet-4.6 وGemini-3-Flash عبر أبعاد مختارة. صرّحت DeepSeek بأنها ستطرح أجزاءً من الاختبارات والبيانات كمصدر مفتوح، مع إصدار أوزان النماذج بعد اكتمال عملية الدمج.