Claude Fable 5 muestra resultados de evaluación comparativa contradictorios tras su reincorporación el 1 de julio

Claude Fable 5 regresó al servicio el 1 de julio, desencadenando evaluaciones de rendimiento contradictorias de dos plataformas de benchmarking de IA. BridgeBench informó un colapso en la puntuación de depuración de 86,2 a 25,9, mientras que Arena.AI encontró que el rendimiento se mantenía en gran medida sin cambios a través de miles de votos ciegos de preferencia humana. La divergencia proviene del nuevo clasificador de seguridad de Anthropic que enruta la mayoría de las tareas de codificación a Claude Opus 4.8 en lugar de una disminución real de la capacidad del modelo, según análisis publicados el 2 de julio. El clasificador se implementó como condición de restablecimiento después de que investigadores de Amazon demostraran una técnica de jailbreak en junio, lo que provocó la intervención del gobierno de EE. UU. por motivos de seguridad nacional.

BridgeBench Registra Caídas Severas en Puntuaciones en Todas las Categorías de Codificación

BridgeMind volvió a ejecutar su suite completa de codificación contra la versión del 1 de julio de Fable 5 el día que regresó. BridgeBench prueba tareas de codificación del mundo real en categorías que incluyen depuración, refactorización y resistencia a alucinaciones, con puntuaciones de 0 a 100 según qué tan bien completa el modelo cada categoría. La depuración cayó de 86,2 a 25,9; la refactorización de 73,6 a 38,4; y la resistencia a alucinaciones de 75,9 a 61,7.

De 12 tareas de depuración en TypeScript, solo tres llegaron realmente a Fable 5. Las nueve restantes fueron interceptadas por el nuevo clasificador de seguridad de Anthropic y redirigidas a Claude Opus 4.8. BridgeBench puntúa cada redirección como cero, porque el modelo que respondió no era el que se evaluaba. El clasificador fue entrenado para bloquear la técnica de jailbreak reportada por Amazon —una que logró que Fable 5 identificara y demostrara vulnerabilidades de software. Depurar TypeScript se parece lo suficiente a trabajo de seguridad para el clasificador que la redirección se activa constantemente.

Arena.AI: Votación Humana Muestra Rendimiento Estable en la Mayoría de las Categorías

Arena.AI analizó la misma pregunta desde un enfoque diferente. La plataforma recopila miles de votos ciegos de preferencia humana en múltiples categorías —texto, visión, documentos, código y agente— y clasifica los modelos usando puntuación Elo. Cuando dos modelos se enfrentan de forma anónima y los humanos eligen un ganador, la puntuación refleja la calidad percibida real, no el enrutamiento de la infraestructura.

La comparación antes y después mostró que Fable 5 mantenía en gran medida su terreno. El código frontend bajó de 1650 a 1623 Elo —una diferencia que Arena señaló que está dentro del intervalo de confianza a medida que los datos continúan acumulándose. El rendimiento en documentos mejoró en 34 puntos. El texto experto subió 25. La escritura creativa aumentó ligeramente en 9. Las categorías que disminuyeron —Codificación en -18, indicaciones difíciles en -3— son precisamente donde es más probable que el clasificador intercepte la indicación antes de que Fable pueda responder.

El Impacto en el Usuario Varía Según la Categoría de Tarea

Los usuarios generales que realizan escritura creativa, análisis de documentos, investigación y consultas de texto a nivel experto probablemente notarán poca o ninguna diferencia. Esas son las categorías donde Arena.AI muestra un rendimiento plano o mejorado. Escritores, investigadores y analistas obtendrán el Fable 5 que esperaban.

Cualquiera que trabaje en territorio relacionado con la seguridad —codificación de gestión de memoria, cualquier cosa que toque palabras como vulnerabilidad, exploit, hook o incluso fix— encontrará la redirección con regularidad. La brecha entre el colapso de BridgeBench y la estabilidad de Arena se reduce al tipo de tarea. BridgeBench carga su suite con exactamente el tipo de indicaciones de reparación de código y depuración que activan el nuevo clasificador. Los votantes humanos de Arena preguntan una mezcla mucho más amplia de cosas, y la mayoría no se parecen a código de exploit para una capa de seguridad.

Anthropic Reconoce Falsos Positivos Sin Cronograma de Refinamiento

Anthropic ha dicho que los clasificadores mejorarán con el tiempo, reconociendo que actualmente lanzan una red demasiado amplia. La prohibición original llegó después de que investigadores de Amazon encontraran una técnica para que Fable identificara y demostrara vulnerabilidades de software —y el gobierno de EE. UU. trató eso como una amenaza a la seguridad nacional. La solución fue hacer el clasificador lo suficientemente conservador como para detectar eso y todo lo que lo rodea, y luego afinarlo más adelante. Anthropic no ha dado una fecha objetivo para cuándo sucederá eso.

FAQ

¿Por qué la puntuación de depuración de Claude Fable 5 cayó de 86,2 a 25,9 en BridgeBench?
El clasificador de seguridad enrutó nueve de doce tareas de depuración en TypeScript a Claude Opus 4.8 en lugar de a Fable 5. BridgeBench puntúa cada redirección como cero porque el modelo evaluado no manejó la tarea, lo que provocó la caída severa en la puntuación a pesar de que no hubo cambios en las capacidades reales de Fable 5.

¿Qué encontró Arena.AI sobre el rendimiento de Fable 5 después de su restablecimiento el 1 de julio?
Arena.AI recopiló miles de votos ciegos de preferencia humana y encontró que el rendimiento de Fable 5 estaba mayormente plano en comparación con la versión de junio. El rendimiento en documentos mejoró en 34 puntos y el texto experto en 25 puntos, mientras que el código frontend bajó de 1650 a 1623 Elo —una diferencia dentro del intervalo de confianza.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios