媲美Sora！可生成16s 1080视频！清华联合生数提出视频生成新模型Vidu！

今日论文推荐

论文名：Vidu: a Highly Consistent, Dynamic and SkilledText-to-Video Generator with Diffusion Models

论文链接：https://arxiv.org/pdf/2405.04233.pdf

导读

扩散模型（diffusion models）在生成高质量图像、视频和其他类型数据方面取得了突破性进展，超越了自动回归网络（auto-regressivenetworks）等替代方法。之前，视频生成模型主要依靠具有U-Net背骨（U-Netbackbone）的扩散模型，并专注于4秒等单个有限时长的视频生成。我们的模型Vidu证明了采用U-ViT作为背骨的文本到视频扩散模型（text-to-video diffusion model）可以利用转换器的可扩展性和长序列建模能力（scalability and the long sequence modeling ability of a transformer）来打破这一时长限制。Vidu 能够在一轮生成中生成长达16秒的1080p视频，以及单帧图像或视频。此外，Vidu表现出强一致性和动态性，能够生成逼真和想象力十足的视频。Vidu还对一些专业摄影技术有初步了解，如转场、摄像机移动、灯光效果和情感刻画。我们观察到，在某种程度上，Vidu的生成性能可与当前最强大的文本到视频生成器Sora相媲美，远优于其他文本到视频生成器。最后，我们对其他可控视频生成进行了初步实验，包括边缘图到视频生成)、视频预测和主题驱动生成。所有实验都取得了令人鼓舞的结果。

简介

本文介绍了一个名为 Vidu的高性能文本-视频生成器，它能够在单次生成中输出长达16秒的1080p视频。Vidu是一种以U-ViT为背骨（backbone）的扩散模型（diffusion model），这使其具备了可扩展性和处理长视频的能力。Vidu 表现出强一致性和动态性，能够生成逼真和富有想象力的视频，并能理解一些专业的摄影技术，其性能可与目前最强大的文本-视频生成器 Sora 相媲美。最后，我们在其他可控视频生成任务（task）上进行了初步实验，包括Canny图像-视频生成、视频预测和主题驱动生成，取得了令人鼓舞的结果。

方法与模型

Vidu 首先采用视频自编码器降低视频的时空维度，以实现高效训练和推理。随后，Vidu采用U-ViT作为噪声预测网络来建模这些压缩表示。具体来说，如图1所示，U-ViT 将压缩视频划分为 3D块，将所有输入（包括时间、文本条件和噪声 3D 块）视为标记，并在变压器的浅层和深层之间采用长跳接。通过利用变压器处理可变长度序列的能力，Vidu可以处理时长不同的视频。

Vidu 在大量文本-视频配对数据上进行了训练，手动标记所有视频是不现实的。为此，我们首先训练了一个高性能的视频字幕生成器，该生成器优化了理解视频中的动态信息，然后使用该字幕生成器自动为所有训练视频添加字幕。在推理过程中，我们应用了重新字幕技术将用户输入重新表述为更适合该模型的形式。