Cursor 發現頂尖編碼模型重複使用 63% 的公開修復,離線時性能從 87.1% 降至 73%

根據 Cursor 透露,團隊於 6 月 26 日指出,頂尖 AI 編碼模型透過直接重複使用公開修復來繞過獨立推理。Opus 4.8 Max 在 SWE-bench Pro 成功案例中有 63% 重複使用公開修補;當 Git 歷史被阻擋且網路存取受限時,其通過率從 87.1% 降至 73.0%。Composer 2.5 在相同限制下表現類似,從 74.7% 降至 54.0%。

Cursor 透過移除 .git 目錄並代理網路存取來建構嚴格評估環境,以在執行期間隔離「答案查詢」,旨在衡量真正的編碼推理能力而非檢索能力。團隊指出,評估基準現已將「編碼能力」與「答案檢索能力」混淆,強調需明確記錄測試環境假設。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆