媲美Sora!可生成16s 1080视频!清华联合生数提出视频生成新模型Vidu!

今日论文推荐

image.png

论文名:Vidu: a Highly Consistent, Dynamic and SkilledText-to-Video Generator with Diffusion Models

论文链接:https://arxiv.org/pdf/2405.04233.pdf

项目链接:https://www.shengshu-ai.com/vidu

image.png

导读

扩散模型(diffusion models)在生成高质量图像、视频和其他类型数据方面取得了突破性进 展,超越了自动回归网络(auto-regressivenetworks)等替代方法。之前,视频生成模型主要 依靠具有U-Net背骨(U-Netbackbone)的扩散模型,并专注于4秒等单个有限时长的视频生成。我们的模型Vidu证明了采用U-ViT作为背骨的文本到视频扩散模 型(text-to-video diffusion model)可以利用转换器的可扩展性和长序列建模能力(scalability and the long sequence modeling ability of a transformer)来打破这一时长限制。Vidu 能够 在一轮生成中生成长达16秒的1080p视频,以及单帧图像或视频。此外,Vidu表现出强一致 性和动态性,能够生成逼真和想象力十足的视频。Vidu还对一些专业摄影技术有初步了解, 如转场、摄像机移动、灯光效果和情感刻画。我们观察到,在某种程度上,Vidu的生成性能 可与当前最强大的文本到视频生成器Sora相媲美,远优于其他文本到视频生成器。最后,我们对其他可控视频生成进行了初步实验,包括边缘图到视频生成)、视频预测和主题 驱动生成。所有实验都取得了令人鼓舞的结果。

简介

本文介绍了一个名为 Vidu的高性能文本-视频生成器,它能够在单次生成 中输出长达16秒的1080p视频。Vidu是一种以U-ViT为背骨(backbone) 的扩散模型(diffusion model),这使其具备了可扩展性和处理长视频的能 力。Vidu 表现出强一致性和动态性,能够生成逼真和富有想象力的视频, 并能理解一些专业的摄影技术,其性能可与目前最强大的文本-视频生成器 Sora 相媲美。最后,我们在其他可控视频生成任务(task)上 进行了初步实验,包括Canny图像-视频生成、视频预测和主题驱动生成, 取得了令人鼓舞的结果。

方法与模型

Vidu 首先采用视频自编码器降低视频的时空维度,以实现高效训练和推 理。随后,Vidu采用U-ViT作为噪声预测网络来建模这些压缩表示。具体来说, 如图1所示,U-ViT 将压缩视频划分为 3D块,将所有输入(包括时间、文本条件和噪声 3D 块)视为标记,并在变压器的浅层和深层之间采用长跳接。通过利用变压器处理可变长 度序列的能力,Vidu可以处理时长不同的视频。

Vidu 在大量文本-视频配对数据上进行了训练,手动标记所有视频是不现实的。为此,我们 首先训练了一个高性能的视频字幕生成器,该生成器优化了理解视频中的动态信息,然后 使用该字幕生成器自动为所有训练视频添加字幕。在推理过程中,我们应用了重新字幕技术将用户输入重新表述为更适合该模型的形式。

image.png

Generating Videos of Different Lengths

由於Vidu是基於不同時長的視頻進行訓練的,因此它可以生成時長最長為16秒的1080p高 清視頻,包括單幀圖像視頻。我們在圖2中給出了幾個例子。

image.png
image.png

3D Consistency

所产生的视频表现出强的三维一致性。随着摄像机的旋转,视频呈现了从不同角度拍摄的 同一对象的投影。例如,如图3所示,随着摄像机旋转,生成的猫的毛发自然地发生了遮挡 现象。

image.png

Generating Cuts

Vidu 能够生成包含剪辑的视频。如图4所示,这些视频通过切换摄像机角度来呈现同一场 景的不同视角,同时保持场景中主体的一致性。

image.png

Generating Transitions

Vidu 能够在一轮生成中生成带有过渡效果的视频。如图5所示,这些过渡(transitions)可 以以吸引人的方式将两个不同的场景连接起来。

image.png

Camera Movements

摄像机运动涉及摄像机在拍摄过程中实际的调整或移动,增强视觉叙事,表达场景中的不 同视角和情感。Vidu从数据中学习到了这些技术,提升了观众的视觉体验。例如,如图6所示,Vidu能够生成具有摄像机运动的视频,包括缩放、平移和升降。

image.png

Lighting Effects

Vidu 能够生成具有令人印象深刻的光影效果的视频,这有助于增强整体氛围。例如,如图 7 所示,生成的视频可以营造出神秘与宁静的气氛。因此,除了视频内容中的实体外,Vidu 还具有表达某些抽象情感的初步能力。

image.png

Emotional Portrayal

Vidu 能够有效地描绘人物的情感。例如,如图8所示,Vidu可以表达幸福、孤独、尴尬和 快乐等情感。

image.png

Imaginative Ability

除了生成真实世界的场景外,Vidu也拥有丰富的想象力。如图9所示,Vidu能够生成不存 在的真实世界的场景。

image.png

Comparison with Sora

Sora目前是最强大的文本视频生成器,能够生成高清且一致性的视频。但由于Sora并不 对公众开放,我们通过将Sora发布的示例提示直接输入到Vidu中来进行比较。图a和图 b 展示了Vidu和Sora之间的比较,表明在一定程度上,Vidu的生成性能可与Sora媲美。

image.png

总结

我们提出了一个高清的文本到视频生成器Vidu,它在生成的视频的持续时间、连贯性和动 态性等各个方面都表现出强大的能力,与Sora相当。未来,Vidu仍然有改进的空间。例如,细节偶尔会出现瑕疵,视频中不同主体之间的交互有时也会偏离物理定律。我们相 信,通过进一步扩展Vidu可以有效解决这些问题。

作者:妙妙房
来源:AI妙妙房

推荐阅读

欢迎大家点赞留言,更多Arm技术文章动态请关注极术社区嵌入式客栈专栏欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。

推荐阅读
关注数
18801
内容数
1347
嵌入式端AI,包括AI算法在推理框架Tengine,MNN,NCNN,PaddlePaddle及相关芯片上的实现。欢迎加入微信交流群,微信号:aijishu20(备注:嵌入式)
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息