DeepSeek 於 4 月 30 日推出「視覺基元」方法,以強化多模態推理

根據 DeepSeek 的技術報告,4 月 30 日,該公司推出 Visual Primitives,一種將點與邊界框等基本視覺單元嵌入推理鏈的方法,以解決多模態任務中的 Reference Gap 問題。該方法透過 KV 快取壓縮降低影像代幣用量。

在計數與空間推理基準測試中,這種方法在特定維度上達到了與 GPT-5.4、Claude-Sonnet-4.6 以及 Gemini-3-Flash 相同的效能。DeepSeek 表示,它將開源部分基準測試與資料集,模型權重則會在整合完成後發布。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆