De acordo com o relatório de IA da Jefferies publicado em 22 de junho, modelos de IA chineses consumiram 18,8 trilhões de tokens na semana encerrada em 22 de junho, superando os modelos dos EUA, que consumiram 5,8 trilhões. O DeepSeek V4 Flash ficou em primeiro lugar com 4,94 trilhões de tokens, seguido pelo MiMo-V2.5 da Xiaomi, MiniMax M3 e Qwen da Tencent. Dados da OpenRouter mostraram que o consumo de tokens em toda a plataforma cresceu 4,7% semana contra semana, chegando a 46,7 trilhões.
A mudança reflete o equilíbrio competitivo dos modelos chineses entre desempenho e custo. A Jefferies observou que os modelos chineses agora reduziram a diferença de inteligência em relação aos equivalentes dos EUA, ao mesmo tempo em que oferecem custos de API a uma fração das alternativas americanas, atribuídos à arquitetura MoE e a mecanismos de atenção otimizados. Os gastos corporativos permaneceram contidos: o Índice de Despesa com Tokens de LLM da Jefferies ficou em 1,64–1,68 em 14–19 de junho, abaixo de 2,04 em 31 de maio, indicando que os desenvolvedores migraram para modelos mais baratos e eficientes.