De acordo com a The Information, citando memorandos internos da Tencent e fontes, os empregados da Tencent usaram o Claude Code da Anthropic durante a fase de pós-treinamento do Hy3, o mais recente grande modelo de linguagem da empresa, apesar da proibição explícita da Anthropic de serviços comerciais a empresas chinesas, invocando preocupações de segurança nacional.
O Hy3 tem uma arquitectura de mixture-of-experts com 295B parâmetros. Durante a fase de RLHF (reinforcement learning from human feedback), os funcionários da Tencent serviram como avaliadores humanos, com o uso limitado a milhares de tokens por pessoa. Memorandos internos incluíam guias de instalação do Claude Code. Os empregados da Tencent usaram o Claude Code para gerar exemplos de referência de alta qualidade para avaliar outputs anónimos do modelo, em vez do que caracterizaram como distilação. Um porta-voz da Anthropic afirmou que a empresa monitora activamente ataques de distilação, mas não abordou directamente o uso do Claude Code pela Tencent.