DeepSeekは4月30日にマルチモーダル推論を強化するために視覚プリミティブ方式を導入

DeepSeekの技術レポートによると、4月30日に同社はVisual Primitives(ビジュアル・プリミティブ)という手法を導入しました。これは、点やバウンディングボックスといった基本的な視覚ユニットを推論チェーンに埋め込むことで、多模態タスクにおけるReference Gap問題に対処する方法です。この手法は、KVキャッシュ圧縮により画像トークン消費を抑えます。

数え上げおよび空間推論のベンチマークでは、このアプローチは、選択した次元においてGPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flashと同等の性能を示しています。DeepSeekは、ベンチマークとデータセットの一部をオープンソース化し、統合の後にモデル重みを公開すると述べました。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし