ゲートニュース、4月29日 — AI研究者の嵐 小松崎(Aran Komatsuzaki)が、リッチ・サットンの先駆的論文『The Bitter Lesson』を9つの言語に翻訳し、それらをOpenAI、Gemini、Qwen、DeepSeek、Kimi、そしてClaudeのトークナイザーで処理して、6つの主要なAIモデル間でトークン化効率を比較分析を行いました。OpenAIにおける英語版のトークン数をベースラインとして (1x) としたところ、この研究では大きな差異が明らかになりました。中国語で同じコンテンツを処理すると、OpenAIの1.15xに対してClaudeでは1.65xのトークンが必要でした。ヒンディー語はClaudeでさらに極端な結果となり、ベースラインを3倍以上上回りました。Anthropicは、試験した6モデルの中で最も低い順位でした。
重要なのは、同一の中国語テキストを異なるモデル間で処理したとき(すべて同じ英語ベースラインに対して測定)結果が劇的に分岐したことです。Kimiは英語より (さらに少ない) 0.81xのトークン消費にとどまり、Qwenは0.85xでしたが、Claudeは1.65xが必要でした。このギャップは、言語そのものではなく純粋なトークン化効率の問題を示しています。中国語モデルは中国語の処理でより高い効率を示しており、その差は言語自体ではなくトークナイザーの最適化に起因する可能性を示唆しています。
ユーザーにとっての実務的な影響は大きく、トークン消費の増加はAPIコストを直接押し上げ、モデルの応答遅延を延ばし、コンテキストウィンドウをより急速に消耗させます。トークン化効率は、モデルの学習データの言語構成に依存します。英語が主に学習されたモデルは英語テキストをより効率よく圧縮しますが、データ表現が少ない言語は、より小さく効率の悪い断片としてトークン化されます。
小松崎(Komatsuzaki)の結論は、根本的な原則を裏付けています。市場規模がトークン化効率を決定するのです。より大きな市場はより良い最適化を受けられ、十分に表現されていない言語はトークンコストが大幅に高くなります。