Tim Kaiming He Merilis Model Diffusi Bahasa ELF dengan 45 miliar Token Pelatihan

Menurut Beating, tim Kaiming He dari MIT baru-baru ini merilis ELF (Embedded Language Flows), sebuah model difusi bahasa yang menyimpang dari pendekatan autoregresif "memprediksi token berikutnya" yang digunakan oleh model bergaya GPT. Sebagai gantinya, ELF melakukan generasi teks dalam ruang embedding kontinu, mengubahnya menjadi token diskrit hanya pada langkah terakhir.

Pada tolok ukur generasi tanpa kondisi OpenWebText, ELF-B dengan 105M parameter mencapai sekitar 24,1 perplexity generasi (Gen. PPL) dengan sampling 32 langkah, mengungguli berbagai baseline model bahasa difusi diskrit maupun kontinu. Yang menonjol, ELF-B hanya memerlukan kira-kira 45 miliar token pelatihan, sekitar satu orde besarnya lebih sedikit dibanding metode sebanding yang biasanya melampaui 500 miliar token.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar