Industri "pil hitam" dari generasi multimodal: model difusi hanyalah kerangka luar, jiwa cerdas sepenuhnya ada dalam bahasa

XAI-4,98%
Menurut pemantauan Beating, Ethan He yang sebelumnya memimpin model dunia xAI mengungkapkan dalam podcast Latent Space tentang "pil hitam" di bidang generasi visual (Black Pill, yang merujuk pada kenyataan pahit dan membongkar gelembung industri): model video dan gambar saat ini tidak benar-benar memahami dunia fisik, model difusi pada dasarnya hanyalah renderer piksel tingkat rendah yang tidak memiliki kemampuan kognisi fisik. Tanpa dukungan teks deskripsi yang sangat detail secara semantik, model difusi sama sekali tidak mampu menghasilkan gambar dinamis yang logis.

Sebagai contoh, model Cosmos dari Nvidia, inti dari rendering gambar hanya memiliki 7B parameter, sementara pusat kecerdasan sebenarnya adalah model bahasa besar (LLM) yang berfungsi sebagai penulis ulang prompt (Prompt Rewriter). Penulis ulang bertanggung jawab untuk memperluas instruksi singkat manusia menjadi deskripsi panjang yang sangat rinci yang mencakup cahaya dan bayangan, bahan, lingkungan, dan gerakan. Kualitas logika dan kecocokan video akhir hampir sepenuhnya bergantung pada kualitas penulisan ulang prompt oleh model bahasa, bukan pada model difusi itu sendiri.

Jenis pemisahan visual dan bahasa ini menandakan bahwa interaksi manusia-mesin akan mengalami rekonstruksi total. Dengan biaya inferensi yang menurun drastis, interaksi terminal di masa depan akan berkembang menjadi UI generatif (Generative UI), kode front-end tradisional seperti React akan dihapus. Model bahasa besar akan melakukan inferensi logika di latar belakang, sementara model difusi video secara langsung menghasilkan antarmuka yang dipersonalisasi berdasarkan instruksi di tingkat piksel.
Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
GateUser-44dde53bvip
· 4jam yang lalu
7B parameter rendering secara langsung, LLM menulis kata kunci petunjuk, pembagian tugas ini sangat rinci seperti jalur perakitan memasang sekrup, arsitektur Cosmos cukup menarik
Lihat AsliBalas0
WickHuntervip
· 06-02 11:44
Ethan mengatakan hal itu dengan keras, tapi tidak salah. Sekarang pembuatan video terlihat menakutkan, begitu kita membuat objek berinteraksi sesuai hukum fisika, maka ketahuan.
Lihat AsliBalas0
GateUser-06596f3bvip
· 06-02 10:48
Mengerti, sekarang inti dari pembuatan video adalah 'gambar bergerak', bukan benar-benar mensimulasikan dunia
Lihat AsliBalas0
GweiGossipvip
· 06-02 10:43
LLM sebagai pengubah kata kunci, model difusi sebagai kuas, kombinasi ini bisa menipu mata tetapi tidak bisa menipu mesin fisika
Lihat AsliBalas0
GateUser-8d51653bvip
· 06-02 10:33
Pilihan hitam sudah ditelan, tapi industri tetap harus terus mengunyah permen. Setidaknya tahu di mana batas atasnya, tidak rugi
Lihat AsliBalas0
GateUser-4cc35c5cvip
· 06-02 10:32
7B vs ratusan miliar parameter, perbedaan parameter jelas terlihat, distribusi kecerdasan memang tidak merata
Lihat AsliBalas0
PerpNightshiftvip
· 06-02 10:32
Renderer tingkat piksel ini terlalu tepat sasaran, sebelumnya selalu merasa ada yang aneh, sekarang tiba-tiba terang benderang
Lihat AsliBalas0
SandwichAlertAgentvip
· 06-02 10:32
Model penyebaran memang hanya seperti penjilid piksel, pemahaman dunia fisik masih harus bergantung pada LLM sebagai cadangan, pil hitam ini cukup pahit
Lihat AsliBalas0