来源:MIT CSAIL 作者:Alex Shipps

人工智能模型生成视频的幕后过程是什么样的呢?你可能认为这个过程类似于定格动画,即创建许多图像然后拼接在一起,但对于像 OpenAI 的 SORA 和谷歌的 VEO 2 这样的 “扩散模型” 来说,情况并非如此。
这些系统并非逐帧生成视频(即 “自回归” 方式),而是一次性处理整个视频序列。生成的视频片段往往具有照片般的真实感,但这个过程比较缓慢,并且不允许即时做出改变。
麻省理工学院计算机科学与人工智能实验室(CSAIL)和 Adobe 研究部门的科学家们开发了一种名为 “CausVid” 的混合方法,能够在数秒内生成视频。这就像一个机智的学生向经验丰富的老师学习一样,一个全序列扩散模型会训练一个自回归系统,使其能够快速预测下一帧,同时确保视频的高质量和连贯性。CausVid 的 “学生模型” 可以根据简单的文本提示生成视频片段,将一张照片变成动态场景,扩展一段视频,或者在生成过程中根据新的输入改变创作内容。
这个动态工具实现了快速、交互式的内容创作,将原本需要 50 个步骤的过程简化为几个操作。它可以制作出许多富有想象力和艺术性的场景,比如一架纸飞机变成一只天鹅,猛犸象在雪地中穿行,或者一个孩子在水坑里跳跃。用户还可以给出初始提示,比如 “生成一个人过马路的画面”,然后给出后续输入,为场景添加新元素,比如 “他走到对面人行道时在笔记本上写字”。
CSAIL 的研究人员表示,该模型可用于不同的视频编辑任务,例如通过生成与音频翻译同步的视频,帮助观众理解不同语言的直播内容。它还可以在视频游戏中渲染新内容,或者快速生成训练模拟场景来教机器人新任务。
2025 届电气工程与计算机科学硕士、博士田伟尹(Tianwei Yin)是 CSAIL 的附属人员,他认为该模型的优势在于其混合方法。
“CausVid 将基于预训练的扩散模型与通常在文本生成模型中使用的自回归架构相结合,” 关于该工具的一篇新论文的共同第一作者尹说道,“这个由人工智能驱动的 ‘教师模型’ 可以设想出未来的步骤,以训练逐帧生成系统,避免出现渲染错误。”
尹的共同第一作者张强(Qiang Zhang)是 xAI 的研究科学家,曾是 CSAIL 的访问研究员。他们与 Adobe 研究人员理查德・张(Richard Zhang)、伊莱・谢赫特曼(Eli Shechtman)和黄勋(Xun Huang),以及 CSAIL 的两位首席研究员 —— 麻省理工学院教授比尔・弗里曼(Bill Freeman)和弗雷多・杜兰德(Frédo Durand)共同参与了这个项目。
CausVid 及其效果
许多自回归模型能够生成一开始看起来流畅的视频,但在视频序列的后期,视频质量往往会下降。比如一个人跑步的视频片段,起初可能看起来很逼真,但随后他的腿会不自然地乱摆,这就是帧与帧之间的不一致(也称为 “误差累积”)。
在以往的因果方法中,容易出错的视频生成现象很常见,这些方法是逐个预测帧的。而 CausVid 则使用一个强大的扩散模型,将其通用的视频生成经验传授给一个更简单的系统,使其能够快速生成流畅的视觉内容。
本文转载自MIT CSAIL,本文观点不代表雅典娜AI助手YadiannaAI立场。