Tencent utilizó el código de Anthropic, Claude Code, en el último entrenamiento del modelo Hy3, informa The Information

De acuerdo con The Information, citando memorandos internos de Tencent y fuentes, empleados de Tencent usaron Claude Code de Anthropic durante la fase de post-entrenamiento de Hy3, el modelo de lenguaje grande más reciente de la empresa, a pesar de que Anthropic tiene una prohibición explícita de servicios comerciales para empresas chinas citando preocupaciones de seguridad nacional.

Hy3 cuenta con una arquitectura de mezcla de expertos (mixture-of-experts) con 295B parámetros. Durante la etapa de RLHF (aprendizaje por refuerzo a partir de retroalimentación humana), el personal de Tencent actuó como evaluadores humanos con el uso limitado a miles de tokens por persona. Los memorandos internos incluyeron guías de instalación de Claude Code. Empleados de Tencent usaron Claude Code para generar ejemplos de referencia de alta calidad para puntuar salidas anónimas de modelos, en lugar de lo que caracterizaron como distilación. Un portavoz de Anthropic dijo que la empresa monitorea activamente los ataques de distilación, pero no abordó directamente el uso de Claude Code por parte de Tencent.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios