Повідомлення Gate News, 29 квітня — AI-дослідник Аран Комацузаки провів порівняльний аналіз ефективності токенізації на базі шести провідних AI-моделей, переклавши фундаментальну працю Річа Саттона "The Bitter Lesson" дев’ятьма мовами та обробивши їх токенізаторами OpenAI, Gemini, Qwen, DeepSeek, Kimi та Claude. Виходячи з кількості токенів в англійській версії в OpenAI як базового рівня (1x), дослідження виявило суттєві відмінності: обробка того самого контенту китайською вимагала 1.65x токенів у Claude, тоді як у OpenAI — лише 1.15x. Хінді показав ще більш екстремальний результат у Claude, перевищивши базовий рівень більш ніж у 3 рази. Anthropic посів найнижче місце серед шести протестованих моделей.
Критично важливо: коли ідентичний китайський текст обробляли в різних моделях — усі результати, порівняні з однією й тією самою англійською базою — результати різко розійшлися: Kimi спожив лише 0.81x токенів (навіть менше, ніж англійська), Qwen — 0.85x, тоді як Claude потребував 1.65x. Цей розрив свідчить про чисту проблему ефективності токенізації, а не про властиві мовні особливості. Китайські моделі демонстрували вищу ефективність під час обробки китайської, що вказує: відмінність зумовлена оптимізацією токенізатора, а не самою мовою.
Практичні наслідки для користувачів суттєві: зростання споживання токенів безпосередньо підвищує API-витрати, збільшує затримку відповіді моделі та швидше виснажує контекстні вікна. Ефективність токенізації залежить від лінгвістичного складу навчальних даних моделі: моделі, натреновані переважно на англійській, стискають англійський текст ефективніше, тоді як мови з нижчою представленістю токенізуються на менші, менш ефективні фрагменти.
Висновок Комацузаки підкреслює фундаментальний принцип: розмір ринку визначає ефективність токенізації. Більші ринки отримують кращу оптимізацію, а мови, представлені недостатньо, стикаються зі значно вищими токен-витратами.