A Tencent usou o código do Anthropic, o Claude Code, no mais recente treino do modelo Hy3, noticia o The Information

De acordo com a The Information, citando memorandos internos da Tencent e fontes, os empregados da Tencent usaram o Claude Code da Anthropic durante a fase de pós-treinamento do Hy3, o mais recente grande modelo de linguagem da empresa, apesar da proibição explícita da Anthropic de serviços comerciais a empresas chinesas, invocando preocupações de segurança nacional.

O Hy3 tem uma arquitectura de mixture-of-experts com 295B parâmetros. Durante a fase de RLHF (reinforcement learning from human feedback), os funcionários da Tencent serviram como avaliadores humanos, com o uso limitado a milhares de tokens por pessoa. Memorandos internos incluíam guias de instalação do Claude Code. Os empregados da Tencent usaram o Claude Code para gerar exemplos de referência de alta qualidade para avaliar outputs anónimos do modelo, em vez do que caracterizaram como distilação. Um porta-voz da Anthropic afirmou que a empresa monitora activamente ataques de distilação, mas não abordou directamente o uso do Claude Code pela Tencent.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário