Segundo a monitorização da Beating, as alegadas vitórias do sistema multiagente Fugu Ultra da Sakana AI sobre o Fable 5 da Anthropic em benchmarks de raciocínio científico e programação enfrentam ceticismo generalizado por parte da comunidade de IA.
Os críticos argumentam que as pontuações dos benchmarks dependem fortemente dos scaffolds de teste utilizados durante a avaliação. Implementações diferentes de scaffold podem introduzir variações de 10 a 20 pontos, o que significa que as diferenças de desempenho reportadas podem refletir otimizações de engenharia de sistema em vez de avanços fundamentais na capacidade do modelo. Tanto a Sakana AI como a Anthropic divulgaram resultados baseados em scaffolds proprietários e específicos de cada fornecedor, sem ambientes de teste unificados de terceiros, limitando a fiabilidade das comparações diretas.