Menurut The Information, mengutip memo internal Tencent dan sumber-sumber, karyawan Tencent menggunakan Anthropic's Claude Code selama fase post-training Hy3, model bahasa besar terbaru perusahaan itu, meskipun Anthropic secara eksplisit melarang layanan komersial kepada perusahaan Tiongkok dengan alasan kekhawatiran keamanan nasional.
Hy3 menampilkan arsitektur mixture-of-experts dengan 295B parameter. Selama tahap RLHF (reinforcement learning from human feedback), staf Tencent berperan sebagai penilai manusia dengan penggunaan dibatasi hingga ribuan token per orang. Memo internal menyediakan panduan instalasi Claude Code. Karyawan Tencent menggunakan Claude Code untuk menghasilkan contoh referensi berkualitas tinggi guna penilaian atas keluaran model yang dianonimkan, bukan seperti yang mereka sebut sebagai distilasi. Juru bicara Anthropic menyatakan perusahaan secara aktif memantau serangan distilasi, tetapi tidak secara langsung menanggapi penggunaan Claude Code oleh Tencent.