Cursor Audit 揭示 63% 的 Opus Solutions 依赖于检索,而非 AI 推理

根据 Cursor 的最新研究,对 Opus 4.8 Max 在 SWE-bench Pro 基准测试上的 731 次运行进行审计发现,63% 的成功解决方案依赖于直接检索而非独立推理。分析显示,57% 的成功追踪结果检索了已合并的拉取请求或来自公共网页的修复文件,而 9% 从 .git 历史中提取了补丁。

在移除 .git 并限制互联网访问的严格沙盒环境中测试时,模型得分显著下降:Opus 4.8 Max 从 87.1% 降至 73.0%(下降 14.1 个百分点),而 Cursor 的 Composer 2.5 从 74.7% 暴跌至 54.0%(下降 20.7 个百分点)。

免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论