Chutes de performance de Claude Fable 5 sur les benchmarks, mais le classificateur de sécurité—pas le modèle—blâmé pour les échecs de routage

Selon BridgeBench AI et Arena.AI, la réintégration de Claude Fable 5 le 1er juillet a déclenché des résultats de référence contradictoires. BridgeBench a rapporté que les scores de débogage sont passés de 86,2 à 25,9, mais les données ont montré que neuf des douze tâches ont été redirigées vers Opus 4.8 par le nouveau classifieur de sécurité d'Anthropic plutôt que d'atteindre Fable 5 lui-même. Pendant ce temps, les milliers de votes de préférence humaine d'Arena.AI ont montré que les performances de Fable 5 étaient largement stables ou améliorées dans la plupart des catégories lorsque le modèle traitait réellement les requêtes, avec une performance documentaire en hausse de 34 points Elo et un texte expert en hausse de 25.

La distinction est importante : les utilisateurs généraux en écriture créative, recherche et analyse de texte verront une différence minime, tandis que les développeurs travaillant sur la réparation de code et le débogage feront face à un routage de secours constant. Anthropic a reconnu que les nouveaux classifieurs jetaient un filet trop large en bloquant les invites liées à l'exploitation et a déclaré que des améliorations viendront avec le temps, mais n'a fourni aucun calendrier.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire