智谱 GLM-5.2 以 44% 的成功率登顶 DeepSWE 开源基准,并超过主流闭源模型

根据 Beating(一个监控账号),智谱 AI 的开源模型 GLM-5.2 在 DeepSWE 基准的复杂软件工程任务中,取得了开源模型中的最高成功率,在最大推理强度下达到 44% 的一次性成功率。这一表现比 Kimi K2.7 Code 的 31% 高出 13 个百分点。

以每个任务 $3.92 的价格计,GLM-5.2 在特定推理配置下,其性能优于多款主流闭源模型,包括 Claude Sonnet 4.6 [high] 为 30%,Gemini 3.5 Flash [medium] 为 37%,以及 Claude Opus 4.8 [low] 为 41%。

免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论