NVIDIA y el MIT publican el framework Lightning OPD, mejorando 4x la eficiencia de la destilación de modelos mientras eliminan los problemas de memoria de la GPU

Según los informes, investigadores de NVIDIA y del MIT lanzaron Lightning OPD (Offline On-Policy Distillation), un nuevo marco de post-entrenamiento para modelos de lenguaje grandes que elimina la necesidad de mantener un modelo docente en funcionamiento durante el entrenamiento. Al precomputar las log-probabilidades del modelo docente sin conexión, el marco mejora la eficiencia del entrenamiento en 4x y libera todos los recursos de GPU para el entrenamiento del modelo estudiante.

En pruebas con 8 GPU NVIDIA H100, Lightning OPD destiló con éxito Qwen3-30B-A3B-Base (un modelo MoE con 30 mil millones de parámetros) y logró 71,0 en el benchmark AIME 2024, mientras que el OPD estándar se quedó sin memoria en el mismo hardware. Para el modelo Qwen3-8B más pequeño, el marco requirió solo 30 horas de GPU para alcanzar 69,9 puntos.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios