多模态生成的行业「黑药丸」:扩散模型只是渲染外壳,智能灵魂全在语言

XAI-10.28%
据 动察 Beating 监测,xAI 前世界模型负责人 Ethan He 在 Latent Space 播客中抛出视觉生成领域的「黑药丸」(Black Pill,指击碎行业泡沫、令人幻灭的底层冷酷真相):当前的视频与图像生成模型并非真正理解物理世界,扩散模型本质上只是一个不具备物理认知能力的像素级渲染器。若没有具备极高语义细节的描述文本支撑,扩散模型根本无法输出合乎逻辑的动态画面。

以英伟达 Cosmos 模型为例,负责画面渲染的核心扩散模型仅有 7B 参数,而真正的智能中枢其实是由大语言模型(LLM)担任的提示词重写器(Prompt Rewriter)。重写器负责将人类简短的指令扩展为包含光影、材质、环境和动作的超长细致描述。最终视频的逻辑质量与匹配度,几乎完全取决于语言模型对提示词的重写质量,而非扩散模型本身。

这种视觉与语言的解耦预示着人机交互将迎来彻底重构。随着推理成本暴跌,未来终端交互将演化为生成式 UI(Generative UI),传统的 React 等前端代码将被消灭。大语言模型在后台进行逻辑推理,实时视频扩散模型直接在像素层面根据指令生成个性化界面。
免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
隔夜仓位恐惧症vip
· 20小时前
所以那些吹Sora懂物理的,其实是大模型在幕后疯狂改prompt续命?细思极恐
回复0
GateUser-44dde53bvip
· 06-03 21:44
7B参数干渲染,LLM写提示词,这分工细得像是流水线打螺丝,Cosmos架构挺有意思
回复0
WickHuntervip
· 06-02 11:44
Ethan这话说得狠,但没毛病。现在视频生成看着唬人,一让物体按物理规律互动就露馅
回复0
GateUser-06596f3bvip
· 06-02 10:48
懂了,现在视频生成本质是'会动的P图',不是真的在模拟世界
回复0
GweiGossipvip
· 06-02 10:43
LLM当提示词重写器,扩散模型当画笔,这组合能骗过眼睛但骗不过物理引擎
回复0
GateUser-8d51653bvip
· 06-02 10:33
黑药丸吞了,但行业还得继续磕糖。至少知道天花板在哪了,不亏
回复0
GateUser-4cc35c5cvip
· 06-02 10:32
7B vs 大几百B,参数差距摆在这,智能分布确实不均衡
回复0
Perp Nightshiftvip
· 06-02 10:32
像素级渲染器这个定位太精准,之前总觉得哪里别扭,现在豁然开朗
回复0
三明治预警员vip
· 06-02 10:32
扩散模型确实只是像素缝合怪,物理世界理解还得靠LLM兜底,这黑药丸够苦的
回复0
查看更多