Claude Fable 5 est revenue en service le 1er juillet, déclenchant des évaluations de performance contradictoires de deux plateformes de benchmarking IA. BridgeBench a rapporté un effondrement du score de débogage de 86,2 à 25,9, tandis qu'Arena.AI a constaté des performances largement inchangées à travers des milliers de votes humains anonymes. La divergence provient du nouveau classifieur de sécurité d'Anthropic qui redirige la plupart des tâches de codage vers Claude Opus 4.8 plutôt que d'un déclin réel des capacités du modèle, selon des analyses publiées le 2 juillet. Le classifieur a été déployé comme condition de rétablissement après que des chercheurs d'Amazon aient démontré une technique de jailbreak en juin, ce qui a provoqué une intervention du gouvernement américain pour des raisons de sécurité nationale.
BridgeMind a réexécuté sa suite complète de codage sur la version du 1er juillet de Fable 5 le jour de son retour. BridgeBench teste des tâches de codage réelles dans des catégories incluant le débogage, le refactoring et la résistance aux hallucinations, notées de 0 à 100 sur la façon dont le modèle complète chaque catégorie. Le débogage est passé de 86,2 à 25,9, le refactoring de 73,6 à 38,4 et la résistance aux hallucinations de 75,9 à 61,7.
Sur 12 tâches de débogage TypeScript, seules trois ont réellement atteint Fable 5. Les neuf restantes ont été interceptées par le nouveau classifieur de sécurité d'Anthropic et redirigées vers Claude Opus 4.8. BridgeBench note chaque repli comme zéro, car le modèle qui a répondu n'était pas celui évalué. Le classifieur a été entraîné pour bloquer la technique de jailbreak rapportée par Amazon — celle qui a permis à Fable 5 d'identifier et de démontrer des vulnérabilités logicielles. Le débogage TypeScript ressemble suffisamment à du travail de sécurité pour que le classifieur déclenche constamment le repli.
Arena.AI a examiné la même question sous un angle différent. La plateforme collecte des milliers de votes humains anonymes dans plusieurs catégories — texte, vision, document, code et agent — et classe les modèles à l'aide du score Elo. Lorsque deux modèles s'affrontent anonymement et que les humains choisissent un gagnant, le score reflète la qualité perçue réelle, et non le routage de l'infrastructure.
La comparaison avant-après a montré que Fable 5 tenait largement bon. Le code frontend est passé de 1650 à 1623 Elo — une différence qu'Arena a notée comme étant dans l'intervalle de confiance alors que les données continuent de s'accumuler. Les performances sur les documents ont augmenté de 34 points. Le texte expert a augmenté de 25. L'écriture créative a légèrement augmenté de 9. Les catégories qui ont baissé — Codage à -18, prompts difficiles à -3 — sont précisément celles où le classifieur est le plus susceptible d'intercepter le prompt avant que Fable ne puisse répondre.
Les utilisateurs généraux qui font de l'écriture créative, de l'analyse de documents, de la recherche et des requêtes textuelles de niveau expert ne remarqueront probablement que peu ou pas de différence. Ce sont les catégories où Arena.AI montre des performances stables ou améliorées. Les écrivains, chercheurs et analystes obtiendront le Fable 5 qu'ils attendaient.
Quiconque travaille dans un domaine proche de la sécurité — gestion de la mémoire en codage, tout ce qui touche à des mots comme vulnérabilité, exploit, hook, ou même fix — va rencontrer régulièrement le repli. L'écart entre l'effondrement de BridgeBench et la stabilité d'Arena se résume au type de tâche. BridgeBench charge sa suite avec exactement le genre de prompts de réparation de code et de débogage qui déclenchent le nouveau classifieur. Les votants humains d'Arena posent une gamme beaucoup plus large de questions, et la plupart d'entre elles ne ressemblent pas à du code d'exploit pour une couche de sécurité.
Anthropic a déclaré que les classifieurs s'amélioreront avec le temps, reconnaissant qu'ils jettent actuellement un filet trop large. L'interdiction initiale est survenue après que des chercheurs d'Amazon aient trouvé une technique pour amener Fable à identifier et démontrer des vulnérabilités logicielles — et le gouvernement américain a traité cela comme une menace pour la sécurité nationale. La solution a été de rendre le classifieur suffisamment conservateur pour attraper cela et tout ce qui l'entoure, puis de l'ajuster plus tard. Anthropic n'a donné aucune date cible pour quand cela se produira.
Pourquoi le score de débogage de Claude Fable 5 est-il passé de 86,2 à 25,9 sur BridgeBench ?
Le classifieur de sécurité a redirigé neuf des douze tâches de débogage TypeScript vers Claude Opus 4.8 au lieu de Fable 5. BridgeBench note chaque repli comme zéro car le modèle évalué n'a pas traité la tâche, provoquant une baisse sévère du score malgré aucun changement dans les capacités réelles de Fable 5.
Qu'a trouvé Arena.AI sur les performances de Fable 5 après le rétablissement du 1er juillet ?
Arena.AI a collecté des milliers de votes humains anonymes et a constaté que les performances de Fable 5 étaient globalement stables par rapport à la version de juin. Les performances sur les documents ont augmenté de 34 points et le texte expert de 25 points, tandis que le code frontend est passé de 1650 à 1623 Elo — une différence dans l'intervalle de confiance.
Actualités associées
Microsoft lance Frontier Company avec un investissement de 2,5 milliards de dollars dans l'IA.
快手「可靈 AI」即將完成 30 億美元融資,騰訊與阿里列潛在投資人名單
Actions Meta se lance dans le cloud computing, déclenchant une chute en cascade des actions de matériel IA.
Les États-Unis lèvent les restrictions à l'exportation sur les modèles d'IA Fable 5 et Mythos 5 d'Anthropic