The Informationによると、社内のテンセント・メモと情報源を引用しながら、テンセントの従業員が、同社の最新の大規模言語モデルであるHy3のポストトレーニング段階において、国の安全保障上の懸念を理由に中国企業向けの商用サービスを明確に禁じているAnthropicのClaude Codeを使用していたという。
Hy3は295Bのパラメータを持つ混合専門家(mixture-of-experts)アーキテクチャを備えている。RLHF(人間のフィードバックからの強化学習)段階では、テンセントのスタッフが人間の評価者として務め、1人あたりの利用は数千トークンまでに制限されていた。社内メモには、Claude Codeのインストール手順のガイドが示されていた。テンセントの従業員は、「蒸留」と彼らが呼んでいたものではなく、匿名のモデル出力を採点するための高品質な参照用の例を生成するのにClaude Codeを用いた。Anthropicのスポークスパーソンは、同社が蒸留攻撃を積極的に監視していると述べたが、テンセントによるClaude Codeの使用については直接は取り上げなかった。