A equipa de MIT de Kaiming He lança o modelo de difusão de linguagem ELF com 45 mil milhões de tokens de treino

De acordo com a Beating, a equipa de Kaiming He (MIT) lançou recentemente o ELF (Embedded Language Flows), um modelo de difusão de linguagem que se afasta da abordagem autorregressiva de “prever o token seguinte” usada por modelos do tipo GPT. Em vez disso, o ELF realiza a geração de texto num espaço de embeddings contínuo, convertendo para tokens discretos apenas no passo final.

Nos benchmarks de geração incondicional do OpenWebText, o ELF-B com 105M parâmetros alcançou cerca de 24,1 de perplexidade de geração (Gen. PPL) com amostragem em 32 passos, superando múltiplos modelos base de difusão de linguagem discretos e contínuos. Em particular, o ELF-B necessitou apenas de aproximadamente 45 mil milhões de tokens de treino, cerca de uma ordem de grandeza menos do que métodos comparáveis, que tipicamente excedem 500 mil milhões de tokens.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário