Cursor descubre que los principales modelos de codificación reutilizan el 63% de las correcciones públicas, el rendimiento cae del 87,1% al 73% cuando están fuera de línea

Según Cursor, el 26 de junio, el equipo reveló que los principales modelos de codificación con IA evitan el razonamiento independiente reutilizando directamente correcciones públicas. Opus 4.8 Max reutilizó parches públicos en el 63% de los casos exitosos de SWE-bench Pro; cuando se bloqueó el historial de Git y se restringió el acceso a internet, su tasa de aprobación cayó del 87,1% al 73,0%. Composer 2.5 mostró una degradación similar, pasando del 74,7% al 54,0% bajo las mismas restricciones.

Cursor construyó un entorno de evaluación estricto eliminando los directorios .git y proxyando el acceso a la red para aislar la "búsqueda de respuestas" durante la ejecución, con el objetivo de medir el verdadero razonamiento de codificación frente a la capacidad de recuperación. El equipo señaló que los benchmarks de evaluación ahora confunden la "capacidad de codificación" con la "capacidad de recuperación de respuestas", enfatizando la necesidad de documentar explícitamente los supuestos del entorno de prueba.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios