A DeepSeek Introduz um método de primitivas visuais para melhorar o raciocínio multimodal a 30 de abril

De acordo com o relatório técnico da DeepSeek, a 30 de abril a empresa apresentou Visual Primitives, um método que incorpora unidades visuais básicas como pontos e caixas delimitadoras em cadeias de raciocínio para resolver o problema da Reference Gap em tarefas multimodais. O método reduz o consumo de tokens de imagem através da compressão do KV cache.

Nos testes de contagem e raciocínio espacial, a abordagem atinge o desempenho do GPT-5.4, do Claude-Sonnet-4.6 e do Gemini-3-Flash em dimensões selecionadas. A DeepSeek afirmou que irá disponibilizar em open-source partes das benchmarks e dos conjuntos de dados, com os pesos do modelo a serem lançados após a integração.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário