El coste de tokenización del idioma chino de Claude es un 65% más alto que el del inglés; OpenAI solo un 15% más

Mensaje de Gate News, 29 de abril — La investigadora de IA Aran Komatsuzaki realizó un análisis comparativo de la eficiencia de tokenización en seis modelos principales de IA traduciendo el influyente artículo de Rich Sutton "The Bitter Lesson" a nueve idiomas y procesándolos mediante los tokenizadores de OpenAI, Gemini, Qwen, DeepSeek, Kimi y Claude. Usando el recuento de tokens de la versión en inglés en OpenAI como línea de base (1x), el estudio reveló disparidades significativas: procesar el mismo contenido en chino requería 1.65x tokens en Claude, en comparación con solo 1.15x en OpenAI. El hindi mostró un resultado aún más extremo en Claude, superando la línea de base en más de 3x. Anthropic ocupó el puesto más bajo entre los seis modelos probados.

Críticamente, cuando el texto chino idéntico se procesó en diferentes modelos—todos medidos frente a la misma línea de base en inglés—los resultados divergieron de forma drástica: Kimi consumió solo 0.81x tokens (incluso menos que el inglés), Qwen 0.85x, mientras que Claude requirió 1.65x. Esta brecha revela un problema puro de eficiencia de tokenización, no un problema inherente del idioma. Los modelos de chino demostraron una eficiencia superior al procesar chino, lo que sugiere que la disparidad se debe a la optimización del tokenizador más que al propio idioma.

Las implicaciones prácticas para los usuarios son sustanciales: el aumento del consumo de tokens incrementa directamente los costos de la API, alarga la latencia de respuesta del modelo y agota más rápidamente las ventanas de contexto. La eficiencia de tokenización depende de la composición lingüística de los datos de entrenamiento de un modelo—los modelos entrenados predominantemente en inglés comprimen el texto en inglés con más eficiencia, mientras que los idiomas con menor representación en los datos se tokenizan en fragmentos más pequeños y menos eficientes.

La conclusión de Komatsuzaki recalca un principio fundamental: el tamaño del mercado determina la eficiencia de tokenización. Los mercados más grandes reciben una mejor optimización, mientras que los idiomas con menor representación enfrentan costos de token significativamente más altos.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios