Mensagem de Gate News, 24 de abril — Zhang Chi, um antigo engenheiro da equipa Seed da ByteDance e atualmente professor assistente na Universidade de Pequim, revelou no podcast "Into Asia" que a ByteDance necessita de aproximadamente seis meses para concluir um ciclo completo de treino de pré-formação de modelos de linguagem de grande dimensão (pretraining mais pós-treino), enquanto o Google, segundo se afirma, precisa apenas de três meses. Zhang atribuiu a diferença de velocidade como uma razão central pela qual as empresas chinesas têm dificuldade em acompanhar o desenvolvimento de IA.

Zhang descreveu uma "cultura de benchmark" dentro da Seed, em que os líderes de equipa são avaliados com base nas pontuações de referência que supervisionam, e todos os membros se concentram em aumentar os números. No entanto, referiu que isto não se traduz, na prática, numa melhor experiência do utilizador. Embora os modelos das principais empresas chinesas pareçam competitivos com os modelos de fronteira dos EUA em termos de papel, ficam aquém na utilização real. O objetivo da Seed é alcançar um desempenho de topo a nível global, mas Zhang afirmou que não acredita que a equipa tenha atingido esse patamar, nem que tenha alcançado a meta de liderança doméstica.

No final de 2024, a Seed considerava-se equivalente ao GPT-4o, mas após o lançamento da DeepSeek, a equipa reconheceu que a diferença continuava. Quando Zhang se juntou, todo o grupo estava a mudar com urgência para a aprendizagem por reforço para colmatar a lacuna.

Ver fonte

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.

Notícias relacionadas

04-24 04:57

A Xiaomi revela detalhes do treino do MiMo-V2-Pro: parâmetros do modelo 1T, milhares de GPUs implementadas

04-23 09:45

DeepSeek lança em open-source o TileKernels, biblioteca de kernels de GPU para o treino e a inferência de grandes modelos

04-23 08:52

A Tencent Lança e Disponibiliza como Código Aberto uma Pré-visualização de Hunyuan Hy3 com 295B Parâmetros

04-23 04:54

A Perplexity revela o método de pós-treinamento do agente de pesquisa na web; o modelo baseado em Qwen3.5 supera o GPT-5.4 em precisão e custo

04-22 14:05

Yifan Zhang divulga as especificações técnicas completas do DeepSeek V4: 1,6T de parâmetros, 384 especialistas com 6 ativações

Análise aprofundada

A Tencent disponibiliza como open source o Hy3 (versão de pré-visualização), com testes de referência do código melhorados em 40% face à geração anterior

Market Whisper04-24 05:14

Alerta de névoa da Mist: organização de hackers da Coreia do Norte recruta desenvolvedores Web3 com burlas, roubou 12 milhões em 3 meses

Market Whisper04-24 02:45

A Casa Branca acusa a China de roubo de modelos de IA em “escala industrial”

Crypto Frontier04-23 15:38

Comentar

0/400

Nenhum comentário