Según Cursor, el 26 de junio, el equipo reveló que los principales modelos de codificación con IA evitan el razonamiento independiente reutilizando directamente correcciones públicas. Opus 4.8 Max reutilizó parches públicos en el 63% de los casos exitosos de SWE-bench Pro; cuando se bloqueó el historial de Git y se restringió el acceso a internet, su tasa de aprobación cayó del 87,1% al 73,0%. Composer 2.5 mostró una degradación similar, pasando del 74,7% al 54,0% bajo las mismas restricciones.
Cursor construyó un entorno de evaluación estricto eliminando los directorios .git y proxyando el acceso a la red para aislar la "búsqueda de respuestas" durante la ejecución, con el objetivo de medir el verdadero razonamiento de codificación frente a la capacidad de recuperación. El equipo señaló que los benchmarks de evaluación ahora confunden la "capacidad de codificación" con la "capacidad de recuperación de respuestas", enfatizando la necesidad de documentar explícitamente los supuestos del entorno de prueba.