Згідно з The Information, посилаючись на внутрішні мемо з Tencent і джерела, співробітники Tencent використовували Claude Code від Anthropic під час посттренувальної фази Hy3 — останньої великої мовної моделі компанії, попри те, що Anthropic прямо забороняв комерційні сервіси для китайських фірм, посилаючись на міркування національної безпеки.
Hy3 має архітектуру суміші експертів із 295 млрд параметрів. Під час етапу RLHF (навчання з підкріпленням за участі людини) співробітники Tencent виступали як люди-оцінювачі, а використання було обмежене тисячами токенів на одну людину. Внутрішні мемо містили інструкції з встановлення Claude Code. Співробітники Tencent застосовували Claude Code, щоб генерувати високоякісні референсні приклади для оцінювання анонімних відповідей моделі, а не те, що вони називали дистиляцією. Спікер Anthropic заявив, що компанія активно відстежує дистиляційні атаки, але напряму не відповів на використання Tencent Claude Code.