Selon The Information, en citant des mémos internes de Tencent et des sources, des employés de Tencent ont utilisé Claude Code, d’Anthropic, pendant la phase de post-formation de Hy3, le dernier grand modèle de langage de l’entreprise, malgré l’interdiction explicite d’Anthropic des services commerciaux aux entreprises chinoises, invoquant des inquiétudes liées à la sécurité nationale.
Hy3 présente une architecture de type mixture-of-experts avec 295B paramètres. Durant la phase RLHF (reinforcement learning from human feedback, apprentissage par renforcement à partir de retours humains), le personnel de Tencent a servi d’évaluateurs humains, avec une utilisation plafonnée à des milliers de tokens par personne. Des mémos internes ont fourni des guides d’installation de Claude Code. Des employés de Tencent ont utilisé Claude Code pour générer des exemples de référence de haute qualité destinés à noter des sorties de modèle anonymes, plutôt que ce qu’ils ont décrit comme de la distillation. Un porte-parole d’Anthropic a déclaré que l’entreprise surveille activement les attaques de distillation, mais n’a pas abordé directement l’utilisation de Claude Code par Tencent.