El equipo de MIT de Kaiming He lanza un modelo de difusión de lenguaje ELF con 45B de tokens de entrenamiento

Según Beating, el equipo de MIT Kaiming He publicó recientemente ELF (Embedded Language Flows), un modelo de difusión de lenguaje que se aparta del enfoque autoregresivo de “predecir el siguiente token” utilizado por los modelos tipo GPT. En su lugar, ELF realiza la generación de texto en un espacio de incrustaciones continuo, convirtiendo en tokens discretos solo en el paso final.

En los puntos de referencia de generación incondicional en OpenWebText, ELF-B, con 105M parámetros, logró aproximadamente 24,1 de perplexidad de generación (Gen. PPL) con muestreo de 32 pasos, superando varios modelos base de lenguaje de difusión discretos y continuos. En particular, ELF-B necesitó solo aproximadamente 45 mil millones de tokens de entrenamiento, unas diez veces menos que métodos comparables que normalmente superan 500 mil millones de tokens.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios