За даними моніторингу Beating, DeepSeek офіційно запустила Vision Mode на платформах для вебу й застосунків. Функція включає глибокий аналіз сцен, просторові міркування та можливість перетворювати скріншоти інтерфейсу безпосередньо на HTML-структурований код.
Нова візійна спроможність побудована на дослідницькому фреймворку DeepSeek «Thinking with Visual Primitives», який спільно розробили з дослідниками з Пекінського університету та Університету Цінхуа. Запропонований підхід закриває прогалини в просторових міркуваннях у наявних візуальних мовних моделях, розглядаючи координатні точки й обмежувальні рамки як базові одиниці мислення. Це дає змогу моделі виконувати візуальні міркування з інтегрованим просторовим референсом під час інференсу. Базовий академічний матеріал був ненадовго опублікований 30 квітня, але DeepSeek відкликала його 1 травня. Наразі Vision Mode підтримує лише введення зображень — без відео чи аудіо — і не має можливостей для генерації зображень.