D’après le rapport d’IA de Jefferies publié le 22 juin, les modèles d’IA chinois ont consommé 18,8 billions de tokens sur la semaine se terminant le 22 juin, dépassant les modèles américains à 5,8 billions. DeepSeek V4 Flash arrive en tête avec 4,94 billions de tokens, suivi par MiMo-V2.5 de Xiaomi, MiniMax M3 et Qwen de Tencent. Les données d’OpenRouter indiquent que la consommation de tokens à l’échelle des plateformes a progressé de 4,7% d’une semaine sur l’autre, pour atteindre 46,7 billions.
Le changement reflète l’équilibre concurrentiel des modèles chinois entre performance et coût. Jefferies a noté que les modèles chinois ont désormais réduit l’écart d’intelligence avec leurs homologues américains tout en proposant des coûts API à une fraction des alternatives américaines, attribués à l’architecture MoE et à des mécanismes d’attention optimisés. Les dépenses des entreprises sont restées modérées, avec l’indice d’« LLM Token Expenditure » de Jefferies à 1,64–1,68 du 14 au 19 juin, contre 2,04 le 31 mai, ce qui suggère que les développeurs se sont tournés vers des modèles moins chers et plus efficaces.