Как сообщает The Information, со ссылкой на внутренние меморандумы Tencent и на источники, сотрудники Tencent использовали Claude Code от Anthropic на этапе пост-обучения Hy3 — новейшей крупной языковой модели компании, несмотря на явный запрет Anthropic на коммерческие сервисы для китайских фирм со ссылкой на опасения в сфере национальной безопасности.
Hy3 включает архитектуру mixture-of-experts с 295B параметров. На этапе RLHF (обучение с подкреплением по сигналам от человеческой обратной связи) сотрудники Tencent выступали в качестве проверяющих людей, а использование было ограничено тысячами токенов на человека. Внутренние меморандумы содержали руководства по установке Claude Code. Сотрудники Tencent использовали Claude Code для генерации высококачественных эталонных примеров для оценки анонимных выводов модели — вместо того, что они охарактеризовали как дистилляцию. Представитель Anthropic заявил, что компания активно отслеживает атаки на основе дистилляции, но напрямую не прокомментировал использование Tencent Claude Code.