De acordo com o relatório técnico da DeepSeek, a 30 de abril a empresa apresentou Visual Primitives, um método que incorpora unidades visuais básicas como pontos e caixas delimitadoras em cadeias de raciocínio para resolver o problema da Reference Gap em tarefas multimodais. O método reduz o consumo de tokens de imagem através da compressão do KV cache.
Nos testes de contagem e raciocínio espacial, a abordagem atinge o desempenho do GPT-5.4, do Claude-Sonnet-4.6 e do Gemini-3-Flash em dimensões selecionadas. A DeepSeek afirmou que irá disponibilizar em open-source partes das benchmarks e dos conjuntos de dados, com os pesos do modelo a serem lançados após a integração.