A Tilde Research descobre que o Muon Optimizer mata 25% dos neurônios; a alternativa Aurora alcança um ganho de eficiência de dados 100x

De acordo com a Tilde Research, o otimizador Muon adotado por modelos de IA de ponta, incluindo DeepSeek V4 e Kimi K2.5, tem uma falha oculta: ele faz com que mais de 25% dos neurônios das camadas MLP morram permanentemente durante o treinamento inicial. A equipe projetou a Aurora, um otimizador alternativo, e a disponibilizou em código aberto. Um modelo com 1,1B parâmetros treinado com apenas 100B tokens conseguiu igualar o desempenho do Qwen3-1.7B treinado em 36T tokens em benchmarks de compreensão de linguagem como HellaSwag e Winogrande, demonstrando uma melhoria de eficiência de dados de aproximadamente 100x. A Aurora adiciona 6% de sobrecarga computacional em comparação ao Muon e pode servir como substituta direta.
Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários