За даними моніторингу Beating, DeepSeek офіційно запустила Vision Mode на платформах для вебу й застосунків. Функція включає глибокий аналіз сцен, просторові міркування та можливість перетворювати скріншоти інтерфейсу безпосередньо на HTML-структурований код.

Нова візійна спроможність побудована на дослідницькому фреймворку DeepSeek «Thinking with Visual Primitives», який спільно розробили з дослідниками з Пекінського університету та Університету Цінхуа. Запропонований підхід закриває прогалини в просторових міркуваннях у наявних візуальних мовних моделях, розглядаючи координатні точки й обмежувальні рамки як базові одиниці мислення. Це дає змогу моделі виконувати візуальні міркування з інтегрованим просторовим референсом під час інференсу. Базовий академічний матеріал був ненадовго опублікований 30 квітня, але DeepSeek відкликала його 1 травня. Наразі Vision Mode підтримує лише введення зображень — без відео чи аудіо — і не має можливостей для генерації зображень.

Переглянути джерело

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

19год тому

DeepSeek залучає 51 мільярд юанів у раунді Series A, Tencent очолює; оцінка сягає 400 мільярдів юанів

06-17 07:21

xAI запускає Grok Imagine Video 1.5, скорочуючи час рендерингу 720p до 25 секунд із 40+ секунд

06-17 02:04

Microsoft розглядає інтеграцію моделі DeepSeek у Copilot для роботи з командою, переходить на оплату за використання 16 червня

06-17 01:13

DeepSeek залучив 7,4 мільярда доларів у першому раунді фінансування при оцінці в 50 мільярдів доларів

06-16 05:17

DeepSeek завершує рекордний $7B -раунд фінансування з оцінкою понад $500B

Поглиблений аналіз