De acordo com a The Information, citando memorandos internos da Tencent e fontes, funcionários da Tencent usaram o Claude Code da Anthropic durante a fase de pós-treinamento do Hy3, o modelo de linguagem grande mais recente da empresa, apesar da proibição explícita da Anthropic de serviços comerciais para empresas chinesas, citando preocupações de segurança nacional.
O Hy3 traz uma arquitetura de mixture-of-experts com 295B parâmetros. Durante a etapa de RLHF (reinforcement learning from human feedback), equipes da Tencent atuaram como avaliadores humanos, com uso limitado a milhares de tokens por pessoa. Memorandos internos forneceram guias de instalação do Claude Code. Funcionários da Tencent usaram o Claude Code para gerar exemplos de referência de alta qualidade para pontuar saídas anônimas do modelo, em vez do que eles caracterizaram como distilação. Um porta-voz da Anthropic afirmou que a empresa monitora ativamente ataques de distilação, mas não abordou diretamente o uso do Claude Code pela Tencent.