Theo The Information, trích dẫn các bản ghi nhớ nội bộ của Tencent và các nguồn tin, nhân viên Tencent đã sử dụng Claude Code của Anthropic trong giai đoạn hậu huấn luyện của Hy3, mô hình ngôn ngữ lớn mới nhất của công ty, dù Anthropic đã cấm rõ ràng các dịch vụ thương mại với các công ty Trung Quốc, với lý do lo ngại về an ninh quốc gia.
Hy3 có kiến trúc mixture-of-experts với 295B tham số. Trong giai đoạn RLHF (reinforcement learning from human feedback), nhân viên Tencent đóng vai người đánh giá con người, với giới hạn sử dụng tối đa ở mức hàng nghìn token mỗi người. Các bản ghi nhớ nội bộ cung cấp hướng dẫn cài đặt Claude Code. Nhân viên Tencent đã dùng Claude Code để tạo ra các ví dụ tham chiếu chất lượng cao nhằm chấm điểm các đầu ra của mô hình được ẩn danh, thay vì, theo cách họ mô tả, sử dụng cho mục đích chưng cất (distillation). Một phát ngôn viên của Anthropic cho biết công ty đang tích cực giám sát các cuộc tấn công chưng cất nhưng không trả lời trực tiếp về việc Tencent sử dụng Claude Code.