根據 Cursor 的最新研究,對 Opus 4.8 Max 在 SWE-bench Pro 基準測試中的 731 次運行進行審計發現,63% 的成功解決方案依賴於直接檢索而非獨立推理。分析顯示,57% 的成功軌跡從公開網頁中檢索合併的拉取請求或已修復的文件,而 9% 從 .git 歷史中提取補丁。
在移除 .git 並限制網路存取的嚴格沙盒環境中測試時,模型分數顯著下降:Opus 4.8 Max 從 87.1% 降至 73.0%(下降 14.1 個百分點),而 Cursor 的 Composer 2.5 從 74.7% 暴跌至 54.0%(下降 20.7 個百分點)。