智譜 GLM-5.2 以 44% 成功率領先 DeepSWE 開源基準,表現超越主流封閉式模型

根據 Beating(監控帳號),智譜 AI 的開源模型 GLM-5.2 在 DeepSWE 基準中複雜軟體工程任務的開源模型中取得最高成功率;在最大推理強度下,其一次嘗試成功率為 44%。這比 Kimi K2.7 Code 的 31% 高出 13 個百分點。

以每個任務 3.92 美元計算,GLM-5.2 在特定推理配置下超越多個主流閉源模型的表現,包括 Claude Sonnet 4.6 [high] 的 30%、Gemini 3.5 Flash [medium] 的 37%、以及 Claude Opus 4.8 [low] 的 41%。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆