DeepSeek 30 квітня представив метод Visual Primitives для покращення мультимодальних міркувань

Згідно з технічним звітом DeepSeek, 30 квітня компанія представила Visual Primitives — метод, який вбудовує базові візуальні елементи, зокрема точки та рамки, у ланцюги міркувань, щоб подолати проблему Reference Gap у мультимодальних задачах. Метод зменшує споживання токенів зображень завдяки стисненню KV cache.

У тестах з лічби та просторових міркувань підхід відповідає за продуктивністю GPT-5.4, Claude-Sonnet-4.6 та Gemini-3-Flash на вибраних вимірах. DeepSeek заявила, що відкриє вихідний код частин бенчмарків і наборів даних, а ваги моделей буде випущено після інтеграції.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів