De acordo com reportagens, pesquisadores da NVIDIA e do MIT lançaram o Lightning OPD (Offline On-Policy Distillation), um novo framework de pós-treinamento para grandes modelos de linguagem que elimina a necessidade de manter um modelo professor em execução durante o treinamento. Ao pré-computar, offline, os log-probabilities do modelo professor, o framework melhora a eficiência do treinamento em 4x, enquanto libera todos os recursos de GPU para o treinamento do modelo aluno.
Em testes com 8 GPUs NVIDIA H100, o Lightning OPD conseguiu fazer a destilação de Qwen3-30B-A3B-Base (um modelo MoE com 30 bilhões de parâmetros) e atingiu 71,0 no benchmark AIME 2024, enquanto o OPD padrão ficou sem memória no mesmo hardware. Para o modelo Qwen3-8B menor, o framework exigiu apenas 30 horas de GPU para chegar a 69,9 pontos.