根據 Beating(監控帳號),智譜 AI 的開源模型 GLM-5.2 在 DeepSWE 基準中複雜軟體工程任務的開源模型中取得最高成功率;在最大推理強度下,其一次嘗試成功率為 44%。這比 Kimi K2.7 Code 的 31% 高出 13 個百分點。
以每個任務 3.92 美元計算,GLM-5.2 在特定推理配置下超越多個主流閉源模型的表現,包括 Claude Sonnet 4.6 [high] 的 30%、Gemini 3.5 Flash [medium] 的 37%、以及 Claude Opus 4.8 [low] 的 41%。