DeepSeek Introduz o método de Primitivos Visuais para aprimorar o raciocínio multimodal em 30 de abril

De acordo com o relatório técnico da DeepSeek, em 30 de abril, a empresa introduziu o Visual Primitives, um método que incorpora unidades visuais básicas, como pontos e caixas delimitadoras, em cadeias de raciocínio para resolver o problema da Reference Gap em tarefas multimodais. A abordagem reduz o consumo de tokens de imagem por meio de compressão do KV cache.

Em benchmarks de contagem e raciocínio espacial, a estratégia se iguala ao desempenho do GPT-5.4, Claude-Sonnet-4.6 e Gemini-3-Flash em dimensões selecionadas. A DeepSeek afirmou que vai disponibilizar em open-source partes dos benchmarks e dos conjuntos de dados, com os pesos do modelo a serem liberados após a integração.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários