Mensagem do Gate News, 24 de abril — o engenheiro da OpenAI, Clive Chan, levantou objeções detalhadas ao capítulo de recomendações de hardware no relatório técnico V4, chamando-o de "surpreendentemente medíocre e propenso a erros" em comparação com a aclamada versão V3. A orientação de hardware da V3, que incluía sessões de Q&A que se tornaram o tópico de discussão mais popular na conferência acadêmica ISCA, ofereceu recomendações específicas alinhadas com padrões de interconexão da indústria. A V4, por outro lado, é muito mais vaga.

Chan contestou sistematicamente três recomendações-chave. Em consumo de energia, o relatório sugere que a otimização de software permite que os chips executem computação, armazenamento e comunicação com capacidade total simultaneamente, e recomenda que os fabricantes de chips reservem margem de energia adicional. Chan argumenta que isso é contraproducente: o poder total do chip é limitado por limitações do processo físico, então reservar mais margem de energia apenas reduz a frequência de operação, diminuindo, por fim, o desempenho computacional. No que diz respeito à transferência de dados de GPU para GPU, o relatório defende um modelo pull—no qual as GPUs buscam ativamente os dados—em vez de um modelo push, citando alto overhead de notificação nas operações push. Chan contesta isso, afirmando que o pull na verdade é mais lento e que capacidades aprimoradas do adaptador de rede seriam preferíveis. No entanto, os dois podem estar discutindo camadas diferentes do problema: o relatório aborda o overhead do mecanismo de notificação, enquanto Chan se refere à própria latência de transmissão.

Quanto às funções de ativação, o relatório recomenda substituir o SwiGLU por funções mais simples para reduzir a carga computacional. Chan não vê mérito nisso, observando que o Sonic MoE já demonstrou desempenho ideal usando SwiGLU. Chan suspeita que o DeepSeek possa ter "enfraquecido deliberadamente esta seção."

Ver fonte

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.

Notícias relacionadas

04-24 04:29

V4-Pro Atinge 67% de Taxa de Aprovação de Código em Teste Interno de Dogfooding, Chegando Perto do Desempenho do Opus 4.5

04-24 03:21

Dados de Treinamento da DeepSeek V4 Dobrados para 33T, Disparando Instabilidade que Atrasou o Lançamento

04-24 03:04

DeepSeek lança série de modelos de código aberto V4 com 1,6T de parâmetros e Licença MIT

04-24 01:46

OpenAI Lança GPT-5.5, Projetado para Tarefas de Agentes e Fluxos de Trabalho Complexos

04-23 20:42

Brecha de Segurança da Vercel se Expande para Centenas de Usuários; Desenvolvedores de IA em Maior Risco

Análise aprofundada

DeepSeek lança uma versão de pré-visualização open source do V4, pontuação técnica 3206 superando o GPT-5.4

Market Whisper04-24 05:38

OpenAI lança GPT-5.5: contexto de 12M, índice AA em primeiro lugar, Terminal-Bench 82,7% reescreve o benchmark de agentes

ChainNewsAbmedia04-23 19:45

A Anthropic revela que o Claude Code tem três bugs em cascata: degradação do raciocínio, esquecimento de cache e instruções de 25 caracteres com efeito colateral adverso

ChainNewsAbmedia04-23 18:14

Comentário

0/400

Sem comentários