Вартість китайської токенізації в Claude на 65% вища, ніж в англійській; OpenAI лише на 15% більше

Повідомлення Gate News, 29 квітня — AI-дослідник Аран Комацузаки провів порівняльний аналіз ефективності токенізації на базі шести провідних AI-моделей, переклавши фундаментальну працю Річа Саттона "The Bitter Lesson" дев’ятьма мовами та обробивши їх токенізаторами OpenAI, Gemini, Qwen, DeepSeek, Kimi та Claude. Виходячи з кількості токенів в англійській версії в OpenAI як базового рівня (1x), дослідження виявило суттєві відмінності: обробка того самого контенту китайською вимагала 1.65x токенів у Claude, тоді як у OpenAI — лише 1.15x. Хінді показав ще більш екстремальний результат у Claude, перевищивши базовий рівень більш ніж у 3 рази. Anthropic посів найнижче місце серед шести протестованих моделей.

Критично важливо: коли ідентичний китайський текст обробляли в різних моделях — усі результати, порівняні з однією й тією самою англійською базою — результати різко розійшлися: Kimi спожив лише 0.81x токенів (навіть менше, ніж англійська), Qwen — 0.85x, тоді як Claude потребував 1.65x. Цей розрив свідчить про чисту проблему ефективності токенізації, а не про властиві мовні особливості. Китайські моделі демонстрували вищу ефективність під час обробки китайської, що вказує: відмінність зумовлена оптимізацією токенізатора, а не самою мовою.

Практичні наслідки для користувачів суттєві: зростання споживання токенів безпосередньо підвищує API-витрати, збільшує затримку відповіді моделі та швидше виснажує контекстні вікна. Ефективність токенізації залежить від лінгвістичного складу навчальних даних моделі: моделі, натреновані переважно на англійській, стискають англійський текст ефективніше, тоді як мови з нижчою представленістю токенізуються на менші, менш ефективні фрагменти.

Висновок Комацузаки підкреслює фундаментальний принцип: розмір ринку визначає ефективність токенізації. Більші ринки отримують кращу оптимізацію, а мови, представлені недостатньо, стикаються зі значно вищими токен-витратами.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів