Tencent a utilisé le code de Claude d’Anthropic dans la dernière formation du modèle Hy3, indique The Information

Selon The Information, en citant des mémos internes de Tencent et des sources, des employés de Tencent ont utilisé Claude Code, d’Anthropic, pendant la phase de post-formation de Hy3, le dernier grand modèle de langage de l’entreprise, malgré l’interdiction explicite d’Anthropic des services commerciaux aux entreprises chinoises, invoquant des inquiétudes liées à la sécurité nationale.

Hy3 présente une architecture de type mixture-of-experts avec 295B paramètres. Durant la phase RLHF (reinforcement learning from human feedback, apprentissage par renforcement à partir de retours humains), le personnel de Tencent a servi d’évaluateurs humains, avec une utilisation plafonnée à des milliers de tokens par personne. Des mémos internes ont fourni des guides d’installation de Claude Code. Des employés de Tencent ont utilisé Claude Code pour générer des exemples de référence de haute qualité destinés à noter des sorties de modèle anonymes, plutôt que ce qu’ils ont décrit comme de la distillation. Un porte-parole d’Anthropic a déclaré que l’entreprise surveille activement les attaques de distillation, mais n’a pas abordé directement l’utilisation de Claude Code par Tencent.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire