Стоимость китайской токенизации у Claude на 65% выше, чем у английского; у OpenAI только на 15% больше

Gate News сообщение, 29 апреля — исследователь ИИ Аран Комацузаки провел сравнительный анализ эффективности токенизации на шести основных ИИ-моделях, переведя основополагающую работу Рича Саттона "The Bitter Lesson" на девять языков и пропустив их через токенизаторы OpenAI, Gemini, Qwen, DeepSeek, Kimi и Claude. Используя количество токенов английской версии в OpenAI в качестве базового уровня (1x), исследование выявило существенные различия: обработка того же контента на китайском требовала 1,65x токенов у Claude по сравнению лишь с 1,15x у OpenAI. На Claude хинди показал еще более экстремальный результат, превысив базовый уровень более чем в 3 раза. Anthropic оказался самым низким среди шести протестированных моделей.

Критически важно, что когда идентичный китайский текст обрабатывали на разных моделях — все они сравнивались с одним и тем же английским базовым уровнем — результаты разошлись драматически: Kimi потреблял лишь 0,81x токенов (даже меньше, чем английский), Qwen — 0,85x, тогда как Claude требовалось 1,65x. Этот разрыв указывает на чистую проблему эффективности токенизации, а не на врожденную языковую проблему. Китайские модели продемонстрировали более высокую эффективность при обработке китайского, что позволяет предположить, что разница связана с оптимизацией токенизатора, а не с самим языком.

Практические последствия для пользователей существенны: повышенное потребление токенов напрямую увеличивает API-расходы, удлиняет задержку ответов моделей и быстрее исчерпывает контекстные окна. Эффективность токенизации зависит от лингвистического состава тренировочных данных модели — модели, обученные преимущественно на английском, сжимают английский текст более эффективно, а языки с меньшей представленностью токенизируются в более мелкие, менее эффективные фрагменты.

Вывод Комацузаки подчеркивает фундаментальный принцип: размер рынка определяет эффективность токенизации. Более крупные рынки получают лучшую оптимизацию, тогда как языки, недостаточно представленные, сталкиваются со значительно более высокими затратами на токены.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев