Cursorによると、6月26日、チームは主要なAIコーディングモデルが公開された修正を直接再利用することで独立した推論を回避していることを明らかにした。Opus 4.8 Maxは、成功したSWE-bench Proのケースの63%で公開パッチを再利用した。Git履歴がブロックされ、インターネットアクセスが制限されると、その合格率は87.1%から73.0%に低下した。Composer 2.5も同様の劣化を示し、同じ制約下で74.7%から54.0%に低下した。
Cursorは、.gitディレクトリを削除し、ネットワークアクセスをプロキシすることで、実行時に「回答検索」を分離する厳格な評価環境を構築し、真のコーディング推論と検索能力を測定することを目指した。チームは、評価ベンチマークが現在「コーディング能力」と「回答検索能力」を混同しており、テスト環境の前提条件を明示的に文書化する必要性を強調した。