Tencent использовала код Claude от Anthropic в последнем обучении модели Hy3, сообщает The Information Reports

Как сообщает The Information, со ссылкой на внутренние меморандумы Tencent и на источники, сотрудники Tencent использовали Claude Code от Anthropic на этапе пост-обучения Hy3 — новейшей крупной языковой модели компании, несмотря на явный запрет Anthropic на коммерческие сервисы для китайских фирм со ссылкой на опасения в сфере национальной безопасности.

Hy3 включает архитектуру mixture-of-experts с 295B параметров. На этапе RLHF (обучение с подкреплением по сигналам от человеческой обратной связи) сотрудники Tencent выступали в качестве проверяющих людей, а использование было ограничено тысячами токенов на человека. Внутренние меморандумы содержали руководства по установке Claude Code. Сотрудники Tencent использовали Claude Code для генерации высококачественных эталонных примеров для оценки анонимных выводов модели — вместо того, что они охарактеризовали как дистилляцию. Представитель Anthropic заявил, что компания активно отслеживает атаки на основе дистилляции, но напрямую не прокомментировал использование Tencent Claude Code.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев