Claude Fable 5 regressou ao serviço a 1 de julho, desencadeando avaliações de desempenho conflituantes de duas plataformas de benchmarking de IA. A BridgeBench reportou uma queda na pontuação de debugging de 86,2 para 25,9, enquanto o Arena.AI verificou que o desempenho se manteve praticamente inalterado através de milhares de votos cegos de preferência humana. A divergência decorre do novo classificador de segurança da Anthropic que encaminha a maioria das tarefas de codificação para o Claude Opus 4.8, em vez de um declínio real da capacidade do modelo, de acordo com análises publicadas a 2 de julho. O classificador foi implantado como condição de reintegração depois de investigadores da Amazon terem demonstrado uma técnica de jailbreak em junho, levando à intervenção do governo dos EUA por razões de segurança nacional.
A BridgeMind voltou a executar todo o seu conjunto de codificação na versão de 1 de julho do Fable 5 no dia em que este regressou. O BridgeBench testa tarefas de codificação do mundo real em categorias como debugging, refatoração e resistência a alucinações, pontuadas de 0 a 100 consoante o desempenho do modelo em cada categoria. O debugging caiu de 86,2 para 25,9, a refatoração de 73,6 para 38,4 e a resistência a alucinações de 75,9 para 61,7.
Das 12 tarefas de debugging em TypeScript, apenas três chegaram efetivamente ao Fable 5. As restantes nove foram intercetadas pelo novo classificador de segurança da Anthropic e reencaminhadas para o Claude Opus 4.8. O BridgeBench pontua cada fallback como zero, porque o modelo que respondeu não era o que estava a ser avaliado. O classificador foi treinado para bloquear a técnica de jailbreak reportada pela Amazon — uma que fez com que o Fable 5 identificasse e demonstrasse vulnerabilidades de software. O debugging de TypeScript parece suficientemente semelhante a trabalho de segurança para que o classificador ative o fallback constantemente.
O Arena.AI analisou a mesma questão através de uma perspetiva diferente. A plataforma recolhe milhares de votos cegos de preferência humana em várias categorias — texto, visão, documento, código e agente — e classifica os modelos usando pontuação Elo. Quando dois modelos se enfrentam anonimamente e os humanos escolhem um vencedor, a pontuação reflete a qualidade percebida real, não o encaminhamento da infraestrutura.
A comparação antes e depois mostrou que o Fable 5 manteve maioritariamente a sua posição. O código frontend caiu de 1650 para 1623 Elo — uma diferença que o Arena notou estar dentro do intervalo de confiança à medida que os dados continuam a acumular-se. O desempenho em documentos melhorou 34 pontos. O texto de especialista subiu 25. A escrita criativa aumentou ligeiramente em 9. As categorias que declinaram — Codificação em -18, prompts difíceis em -3 — são precisamente aquelas onde o classificador tem maior probabilidade de intercetar o prompt antes de o Fable responder.
Os utilizadores comuns que fazem escrita criativa, análise de documentos, investigação e consultas de texto a nível de especialista provavelmente notarão pouca ou nenhuma diferença. Essas são as categorias onde o Arena.AI mostra um desempenho estável ou melhorado. Escritores, investigadores e analistas terão o Fable 5 que esperavam.
Qualquer pessoa que trabalhe em território adjacente à segurança — gestão de memória de codificação, qualquer coisa que toque em palavras como vulnerabilidade, exploit, hook ou mesmo fix — vai encontrar o fallback regularmente. A diferença entre o colapso do BridgeBench e a estabilidade do Arena resume-se ao tipo de tarefa. O BridgeBench carrega o seu conjunto exatamente com o tipo de prompts de reparação de código e debugging que acionam o novo classificador. Os votantes humanos do Arena fazem uma mistura muito mais ampla de coisas, e a maioria não se parece com código de exploit para uma camada de segurança.
A Anthropic disse que os classificadores irão melhorar ao longo do tempo, reconhecendo que atualmente abrangem uma rede demasiado ampla. A proibição original ocorreu depois de investigadores da Amazon terem encontrado uma técnica para fazer o Fable identificar e demonstrar vulnerabilidades de software — e o governo dos EUA tratou isso como uma ameaça à segurança nacional. A correção foi tornar o classificador suficientemente conservador para detetar isso e tudo à sua volta, e depois afiná-lo mais tarde. A Anthropic não forneceu uma data-alvo para quando isso irá acontecer.
Porque é que a pontuação de debugging do Claude Fable 5 caiu de 86,2 para 25,9 no BridgeBench?
O classificador de segurança encaminhou nove das doze tarefas de debugging em TypeScript para o Claude Opus 4.8 em vez do Fable 5. O BridgeBench pontua cada fallback como zero porque o modelo avaliado não tratou da tarefa, causando a queda severa na pontuação apesar de não haver alteração nas capacidades reais do Fable 5.
O que é que o Arena.AI descobriu sobre o desempenho do Fable 5 após a reintegração a 1 de julho?
O Arena.AI recolheu milhares de votos cegos de preferência humana e descobriu que o desempenho do Fable 5 estava maioritariamente estável em comparação com a versão de junho. O desempenho em documentos melhorou 34 pontos e o texto de especialista subiu 25 pontos, enquanto o código frontend caiu de 1650 para 1623 Elo — uma diferença dentro do intervalo de confiança.
Notícias relacionadas
Microsoft lança Frontier Company com investimento de 2,5 mil milhões de dólares em IA
快手「可靈 AI」即將完成 30 億美元融資,騰訊與阿里列潛在投資人名單
Ações da Meta entram na computação em nuvem, desencadeando uma queda em cadeia das ações de hardware de IA
EUA Levantam Restrições à Exportação dos Modelos de IA Fable 5 e Mythos 5 da Anthropic