NVIDIA e MIT lançam o framework Lightning OPD, aumentando em 4x a eficiência da destilação de modelos enquanto eliminam problemas de memória da GPU

De acordo com reportagens, pesquisadores da NVIDIA e do MIT lançaram o Lightning OPD (Offline On-Policy Distillation), um novo framework de pós-treinamento para grandes modelos de linguagem que elimina a necessidade de manter um modelo professor em execução durante o treinamento. Ao pré-computar, offline, os log-probabilities do modelo professor, o framework melhora a eficiência do treinamento em 4x, enquanto libera todos os recursos de GPU para o treinamento do modelo aluno.

Em testes com 8 GPUs NVIDIA H100, o Lightning OPD conseguiu fazer a destilação de Qwen3-30B-A3B-Base (um modelo MoE com 30 bilhões de parâmetros) e atingiu 71,0 no benchmark AIME 2024, enquanto o OPD padrão ficou sem memória no mesmo hardware. Para o modelo Qwen3-8B menor, o framework exigiu apenas 30 horas de GPU para chegar a 69,9 pontos.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.
Comentário
0/400
Sem comentários