Tin tức Gate, 29 tháng 4 — Nhà nghiên cứu AI Aran Komatsuzaki đã tiến hành phân tích so sánh hiệu quả mã hóa token trên sáu mô hình AI lớn bằng cách dịch bài nghiên cứu mang tính nền tảng của Rich Sutton "The Bitter Lesson" sang chín ngôn ngữ và xử lý chúng qua bộ mã hóa của OpenAI, Gemini, Qwen, DeepSeek, Kimi và Claude. Dùng số lượng token của phiên bản tiếng Anh trên OpenAI làm mốc cơ sở (1x), nghiên cứu cho thấy sự chênh lệch đáng kể: khi xử lý cùng một nội dung bằng tiếng Trung, Claude cần 1.65x token, trong khi OpenAI chỉ cần 1.15x. Tiếng Hindi cho kết quả còn cực đoan hơn trên Claude, vượt mốc cơ sở hơn 3x. Anthropic xếp vị trí thấp nhất trong số sáu mô hình được thử nghiệm.
Điểm mấu chốt là, khi cùng một văn bản tiếng Trung được xử lý trên các mô hình khác nhau—tất cả đều được đo so với cùng một mốc nền tiếng Anh—kết quả lại phân kỳ mạnh mẽ: Kimi chỉ tiêu thụ 0.81x token (thậm chí ít hơn cả tiếng Anh), Qwen 0.85x, trong khi Claude cần 1.65x. Khoảng cách này cho thấy một vấn đề thuần túy về hiệu quả mã hóa token, chứ không phải vấn đề vốn có của ngôn ngữ. Các mô hình tiếng Trung thể hiện hiệu quả cao hơn khi xử lý tiếng Trung, gợi ý rằng sự chênh lệch bắt nguồn từ việc tối ưu hóa bộ mã hóa thay vì từ bản thân ngôn ngữ.
Ý nghĩa thực tiễn đối với người dùng là rất lớn: việc tiêu thụ token nhiều hơn trực tiếp làm tăng chi phí API, kéo dài độ trễ phản hồi của mô hình và làm cạn kiệt nhanh hơn các cửa sổ ngữ cảnh. Hiệu quả mã hóa token phụ thuộc vào thành phần ngôn ngữ trong dữ liệu huấn luyện của một mô hình—những mô hình được huấn luyện chủ yếu bằng tiếng Anh sẽ nén văn bản tiếng Anh hiệu quả hơn, trong khi các ngôn ngữ có mức độ dữ liệu thể hiện thấp hơn sẽ được mã hóa thành các mảnh nhỏ hơn, kém hiệu quả hơn.
Kết luận của Komatsuzaki nhấn mạnh một nguyên tắc cơ bản: quy mô thị trường quyết định hiệu quả mã hóa token. Thị trường càng lớn thì mức tối ưu càng tốt, còn các ngôn ngữ ít được đại diện sẽ phải chịu chi phí token cao hơn đáng kể.