Según el informe técnico de DeepSeek, el 30 de abril la compañía presentó Visual Primitives, un método que incrusta unidades visuales básicas, como puntos y cajas delimitadoras, en cadenas de razonamiento para abordar el problema de brecha de referencia en tareas multimodales. El método reduce el consumo de tokens de imagen mediante compresión de la caché KV.
En los benchmarks de conteo y razonamiento espacial, el enfoque iguala el rendimiento de GPT-5,4, Claude-Sonnet-4,6 y Gemini-3-Flash en dimensiones seleccionadas. DeepSeek afirmó que abrirá con código partes de los benchmarks y los conjuntos de datos, y que los pesos del modelo se publicarán después, tras su integración.