Claude Fable 5 retornou ao serviço em 1º de julho, gerando avaliações de desempenho conflitantes de duas plataformas de benchmarking de IA. BridgeBench relatou uma queda na pontuação de depuração de 86,2 para 25,9, enquanto Arena.AI descobriu que o desempenho permaneceu praticamente inalterado por meio de milhares de votos cegos de preferência humana. A divergência decorre do novo classificador de segurança da Anthropic, que encaminha a maioria das tarefas de codificação para Claude Opus 4.8, em vez de um declínio real na capacidade do modelo, de acordo com análises publicadas em 2 de julho. O classificador foi implantado como condição de reintegração depois que pesquisadores da Amazon demonstraram uma técnica de jailbreak em junho, provocando intervenção do governo dos EUA por motivos de segurança nacional.
BridgeMind executou novamente seu conjunto completo de codificação na versão de 1º de julho do Fable 5 no dia em que ele voltou. O BridgeBench testa tarefas reais de codificação em categorias que incluem depuração, refatoração e resistência a alucinações, com pontuação de 0 a 100 com base no quão bem o modelo completa cada categoria. A depuração caiu de 86,2 para 25,9; a refatoração, de 73,6 para 38,4; e a resistência a alucinações, de 75,9 para 61,7.
Das 12 tarefas de depuração em TypeScript, apenas três chegaram efetivamente ao Fable 5. As nove restantes foram interceptadas pelo novo classificador de segurança da Anthropic e redirecionadas para o Claude Opus 4.8. O BridgeBench pontua cada fallback como zero, porque o modelo que respondeu não era o que estava sendo avaliado. O classificador foi treinado para bloquear a técnica de jailback relatada pela Amazon — que fez o Fable 5 identificar e demonstrar vulnerabilidades de software. Depurar TypeScript parece trabalho de segurança para o classificador, fazendo com que o fallback seja acionado constantemente.
O Arena.AI analisou a mesma questão sob uma ótica diferente. A plataforma coleta milhares de votos cegos de preferência humana em várias categorias — texto, visão, documento, código e agente — e classifica os modelos usando pontuação Elo. Quando dois modelos se enfrentam anonimamente e os humanos escolhem um vencedor, a pontuação reflete a qualidade real percebida, não o roteamento da infraestrutura.
A comparação antes e depois mostrou que o Fable 5 manteve sua posição. O código frontend caiu de 1650 para 1623 Elo — uma diferença que o Arena observou estar dentro do intervalo de confiança, à medida que mais dados são acumulados. O desempenho em documentos melhorou em 34 pontos. Texto especializado subiu 25. Escrita criativa avançou ligeiramente em 9 pontos. As categorias que declinaram — codificação em -18, prompts difíceis em -3 — são exatamente onde o classificador tem maior probabilidade de interceptar o prompt antes que o Fable possa responder.
Usuários comuns que fazem escrita criativa, análise de documentos, pesquisa e consultas de texto em nível especializado provavelmente notarão pouca ou nenhuma diferença. Essas são as categorias onde o Arena.AI mostra desempenho estável ou melhorado. Escritores, pesquisadores e analistas terão o Fable 5 que esperavam.
Qualquer pessoa que trabalhe em território adjacente à segurança — codificação de gerenciamento de memória, qualquer coisa que toque em palavras como vulnerabilidade, exploit, hook ou até mesmo fix — vai esbarrar no fallback regularmente. A lacuna entre o colapso do BridgeBench e a estabilidade do Arena se resume ao tipo de tarefa. O BridgeBench carrega seu conjunto exatamente com o tipo de prompts de reparo de código e depuração que acionam o novo classificador. Os votantes humanos do Arena fazem uma mistura muito mais ampla de perguntas, e a maioria delas não se parece com código de exploit para uma camada de segurança.
A Anthropic afirmou que os classificadores melhorarão com o tempo, reconhecendo que atualmente lançam uma rede muito ampla. A proibição original veio depois que pesquisadores da Amazon encontraram uma técnica para fazer o Fable identificar e demonstrar vulnerabilidades de software — e o governo dos EUA tratou isso como uma ameaça à segurança nacional. A correção foi tornar o classificador conservador o suficiente para capturar isso e tudo ao redor, e depois ajustá-lo mais tarde. A Anthropic não deu uma data-alvo para quando isso acontecerá.
Por que a pontuação de depuração do Claude Fable 5 caiu de 86,2 para 25,9 no BridgeBench?
O classificador de segurança redirecionou nove das doze tarefas de depuração em TypeScript para o Claude Opus 4.8 em vez do Fable 5. O BridgeBench pontua cada fallback como zero porque o modelo avaliado não lidou com a tarefa, causando a queda severa na pontuação, apesar de não haver mudança nas capacidades reais do Fable 5.
O que o Arena.AI descobriu sobre o desempenho do Fable 5 após a reintegração em 1º de julho?
O Arena.AI coletou milhares de votos cegos de preferência humana e descobriu que o desempenho do Fable 5 ficou praticamente estável em relação à versão de junho. O desempenho em documentos melhorou em 34 pontos e o texto especializado em 25 pontos, enquanto o código frontend caiu de 1650 para 1623 Elo — uma diferença dentro do intervalo de confiança.
Notícias relacionadas
Microsoft lança empresa Frontier com investimento de US$ 2,5 bilhões em IA
快手「可靈 AI」即將完成 30 億美元融資,騰訊與阿里列潛在投資人名單
Ações da Meta entram na computação em nuvem, provocando queda em cascata das ações de hardware de IA.
EUA suspende as restrições de exportação dos modelos de IA Fable 5 e Mythos 5 da Anthropic.