A equipe de MIT Kaiming He lança o modelo de difusão de linguagem ELF com 45 bilhões de tokens de treinamento

De acordo com Beating, a equipe de MIT Kaiming He lançou recentemente o ELF (Embedded Language Flows), um modelo de difusão de linguagem que se afasta da abordagem autoregressiva de “prever o próximo token” usada por modelos estilo GPT. Em vez disso, o ELF realiza a geração de texto em um espaço de embeddings contínuo, convertendo em tokens discretos apenas na etapa final.

Nos benchmarks de geração incondicional do OpenWebText, o ELF-B com 105M parâmetros alcançou aproximadamente 24,1 de perplexidade de geração (Gen. PPL) com amostragem em 32 etapas, superando várias bases de modelos de linguagem de difusão discretos e contínuos. Notavelmente, o ELF-B exigiu apenas aproximadamente 45 bilhões de tokens de treinamento, cerca de uma ordem de grandeza a menos do que métodos comparáveis, que normalmente excedem 500 bilhões de tokens.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários