De acordo com a Sakana AI e a KPMG Japan Azsa, as empresas apresentaram o CoffeeBench, um benchmark económico multiagente de longo horizonte aceite pelo workshop Failure Modes in Agentic AI do ICML 2026. A estrutura simula uma cadeia de abastecimento de café com dois agricultores, dois torrefactores e dois retalhistas, exigindo que cada modelo de IA opere um negócio de torrefação durante um período de 90 dias, utilizando negociações de preços, transações de encomendas e liquidações de pagamentos.
A avaliação horizontal de modelos mainstream revelou comportamentos comerciais distintos: o GPT-5.5 e o Claude Opus 4.7 prosseguiram comunicação ativa, negociando frequentemente preços e executando transações para maximizar vendas, enquanto o Gemini 3.1 Pro mostrou capacidade de resposta passiva. Notavelmente, o Kimi K2.6 fez inúmeras chamadas de ferramentas, mas não conseguiu impor disciplina de preços, resultando em alto volume de transações, mas lucro zero. O Claude Haiku 4.5 exibiu desalinhamento entre planeamento e execução, escolhendo repetidamente a inação apesar de formular estratégias sólidas, incorrendo, em última análise, em perdas massivas à medida que os custos fixos se acumulavam.