根據 DeepSeek 的技術報告,4 月 30 日,該公司推出 Visual Primitives,一種將點與邊界框等基本視覺單元嵌入推理鏈的方法,以解決多模態任務中的 Reference Gap 問題。該方法透過 KV 快取壓縮降低影像代幣用量。
在計數與空間推理基準測試中,這種方法在特定維度上達到了與 GPT-5.4、Claude-Sonnet-4.6 以及 Gemini-3-Flash 相同的效能。DeepSeek 表示,它將開源部分基準測試與資料集,模型權重則會在整合完成後發布。
相關新聞
DeepSeek 在中國晶片匹配啟動支援的同時新增視覺模式
半導體分析師看好 AI 行情「至少再走三年」:先進封裝才是產業瓶頸
AWS 在 Amazon Bedrock 中擴展 OpenAI 整合