DeepSeekの技術レポートによると、4月30日に同社はVisual Primitives(ビジュアル・プリミティブ)という手法を導入しました。これは、点やバウンディングボックスといった基本的な視覚ユニットを推論チェーンに埋め込むことで、多模態タスクにおけるReference Gap問題に対処する方法です。この手法は、KVキャッシュ圧縮により画像トークン消費を抑えます。
数え上げおよび空間推論のベンチマークでは、このアプローチは、選択した次元においてGPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flashと同等の性能を示しています。DeepSeekは、ベンチマークとデータセットの一部をオープンソース化し、統合の後にモデル重みを公開すると述べました。