De acordo com o relatório técnico da DeepSeek, em 30 de abril, a empresa introduziu o Visual Primitives, um método que incorpora unidades visuais básicas, como pontos e caixas delimitadoras, em cadeias de raciocínio para resolver o problema da Reference Gap em tarefas multimodais. A abordagem reduz o consumo de tokens de imagem por meio de compressão do KV cache.
Em benchmarks de contagem e raciocínio espacial, a estratégia se iguala ao desempenho do GPT-5.4, Claude-Sonnet-4.6 e Gemini-3-Flash em dimensões selecionadas. A DeepSeek afirmou que vai disponibilizar em open-source partes dos benchmarks e dos conjuntos de dados, com os pesos do modelo a serem liberados após a integração.