Згідно з технічним звітом DeepSeek, 30 квітня компанія представила Visual Primitives — метод, який вбудовує базові візуальні елементи, зокрема точки та рамки, у ланцюги міркувань, щоб подолати проблему Reference Gap у мультимодальних задачах. Метод зменшує споживання токенів зображень завдяки стисненню KV cache.
У тестах з лічби та просторових міркувань підхід відповідає за продуктивністю GPT-5.4, Claude-Sonnet-4.6 та Gemini-3-Flash на вибраних вимірах. DeepSeek заявила, що відкриє вихідний код частин бенчмарків і наборів даних, а ваги моделей буде випущено після інтеграції.