据 动察 Beating 监测,xAI 前世界模型负责人 Ethan He 在 Latent Space 播客中抛出视觉生成领域的「黑药丸」(Black Pill,指击碎行业泡沫、令人幻灭的底层冷酷真相):当前的视频与图像生成模型并非真正理解物理世界,扩散模型本质上只是一个不具备物理认知能力的像素级渲染器。若没有具备极高语义细节的描述文本支撑,扩散模型根本无法输出合乎逻辑的动态画面。
以英伟达 Cosmos 模型为例,负责画面渲染的核心扩散模型仅有 7B 参数,而真正的智能中枢其实是由大语言模型(LLM)担任的提示词重写器(Prompt Rewriter)。重写器负责将人类简短的指令扩展为包含光影、材质、环境和动作的超长细致描述。最终视频的逻辑质量与匹配度,几乎完全取决于语言模型对提示词的重写质量,而非扩散模型本身。
这种视觉与语言的解耦预示着人机交互将迎来彻底重构。随着推理成本暴跌,未来终端交互将演化为生成式 UI(Generative UI),传统的 React 等前端代码将被消灭。大语言模型在后台进行逻辑推理,实时视频扩散模型直接在像素层面根据指令生成个性化界面。
免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见
声明。