DeepSeek presenta el método de primitivas visuales para mejorar el razonamiento multimodal el 30 de abril

Según el informe técnico de DeepSeek, el 30 de abril la compañía presentó Visual Primitives, un método que incrusta unidades visuales básicas, como puntos y cajas delimitadoras, en cadenas de razonamiento para abordar el problema de brecha de referencia en tareas multimodales. El método reduce el consumo de tokens de imagen mediante compresión de la caché KV.

En los benchmarks de conteo y razonamiento espacial, el enfoque iguala el rendimiento de GPT-5,4, Claude-Sonnet-4,6 y Gemini-3-Flash en dimensiones seleccionadas. DeepSeek afirmó que abrirá con código partes de los benchmarks y los conjuntos de datos, y que los pesos del modelo se publicarán después, tras su integración.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios