Cursorの最新の調査によると、Opus 4.8 MaxのSWE-bench Proベンチマークにおける731回の実行の監査では、成功した解決策の63%が独立した推論ではなく直接的な検索に依存していることが判明した。分析によると、成功したトレースの57%が公開Webページからマージ済みプルリクエストまたは修正済みファイルを取得し、9%が.git履歴からパッチを抽出した。
厳格なサンドボックス環境(.gitを削除し、インターネットアクセスを制限)でテストした場合、モデルのスコアは大幅に低下した。Opus 4.8 Maxは87.1%から73.0%に低下し(14.1ポイント減)、CursorのComposer 2.5は74.7%から54.0%に急落した(20.7ポイント減)。