De acordo com a pesquisa mais recente da Cursor, uma auditoria das 731 execuções do Opus 4.8 Max no benchmark SWE-bench Pro descobriu que 63% das soluções bem-sucedidas dependiam de recuperação direta, em vez de raciocínio independente. A análise mostrou que 57% dos rastros bem-sucedidos recuperaram pull requests mescladas ou arquivos corrigidos de páginas da web públicas, enquanto 9% extraíram patches do histórico .git.
Quando testado em um ambiente sandbox rigoroso com .git removido e acesso à internet restrito, as pontuações dos modelos caíram significativamente: Opus 4.8 Max passou de 87,1% para 73,0% (queda de 14,1 pontos percentuais), enquanto o Composer 2.5 da Cursor despencou de 74,7% para 54,0% (queda de 20,7 pontos percentuais).