DeepSeek представила метод Visual Primitives для усиления мультимодального рассуждения 30 апреля

Согласно техническому отчёту DeepSeek, 30 апреля компания представила Visual Primitives — метод, который встраивает базовые визуальные единицы, такие как точки и ограничивающие рамки, в цепочки рассуждений, чтобы решить проблему Reference Gap в мультимодальных задачах. Метод снижает потребление токенов изображений за счёт сжатия KV cache.

В бенчмарках на счёт и пространственное мышление подход демонстрирует сопоставимую производительность с GPT-5.4, Claude-Sonnet-4.6 и Gemini-3-Flash по выбранным измерениям. DeepSeek заявил, что откроет исходные части бенчмарков и наборов данных, а веса моделей будут выпущены после интеграции.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев