Cursorは主要なコーディングモデルが公開修正の63%を再利用していることを発見、オフライン時にはパフォーマンスが87.1%から73%に低下

Cursorによると、6月26日、チームは主要なAIコーディングモデルが公開された修正を直接再利用することで独立した推論を回避していることを明らかにした。Opus 4.8 Maxは、成功したSWE-bench Proのケースの63%で公開パッチを再利用した。Git履歴がブロックされ、インターネットアクセスが制限されると、その合格率は87.1%から73.0%に低下した。Composer 2.5も同様の劣化を示し、同じ制約下で74.7%から54.0%に低下した。

Cursorは、.gitディレクトリを削除し、ネットワークアクセスをプロキシすることで、実行時に「回答検索」を分離する厳格な評価環境を構築し、真のコーディング推論と検索能力を測定することを目指した。チームは、評価ベンチマークが現在「コーディング能力」と「回答検索能力」を混同しており、テスト環境の前提条件を明示的に文書化する必要性を強調した。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし