微软推出Mora，对标Sora，多项测评超越开源SOTA，效果接近Sora

“Mora: Enabling Generalist Video Generation via A Multi-Agent Framework”

Sora的爆火带动了AI视频生成的关注，然而闭源的Sora为后续研究带来了挑战。为了解决这个问题，近日理海大学和微软联合推出Mora多Agents视频生成框架，通过整合多个SOTA的AI模型，复现Sora的通用视频生成能力。

论文地址：https://arxiv.org/pdf/2403.13248.pdf

Github地址：https://github.com/lichao-sun/Mora

摘要

Sora是第一个引起社会广泛关注的大规模视频生成模型。自OpenAI于2024年2月推出以来，没有其他视频生成模型能与Sora的性能或其支持广泛视频生成任务的能力相媲美。为解决这一差距，本文提出一种新的多Agents框架Mora，Mora可以利用多个视觉Agents，并在各种任务中成功地模拟Sora的视频生成能力。实验结果表明，Mora在各种任务中取得了接近Sora的性能。

简介

最近的视频生成模型（如Pika和Gen-2），已经证明了它们产生多样化和高质量视频的能力，但它们一直受到创建超过10秒的更长时间视频的能力的限制。OpenAI的Sora引发了革命性的转变，标志着视频生成的新时代。然而由于Sora是闭源的，阻碍了研究人员复制或扩展Sora的能力。

为解决当前视频生成模型的局限，本文探索了多Agents协作在完成通用视频生成任务方面的潜力。本文提出一种多Agents框架Mora，利用各种先进的大型模型来实现类似Sora的文本到视频功能。将视频生成分解为几个子任务，每个子任务分配给一个专门的Agents：

1）增强用户提供的提示
2）从输入文本提示生成图像
3）根据文本提供的增强条件编辑或细化图像
4）从生成的图像生成视频
5）连接两个视频

通过自动组织Agents在这些子任务中循环和置换，Mora可以通过灵活的流水线完成广泛的视频生成任务，从而满足用户的多样化需求。

Mora在推理过程中独特地产生一个中间图像或视频，能够保留文本到图像模型中固有的视觉多样性、风格和质量。通过有效地协调文本到图像、图像到图像、图像到视频和视频到视频Agents的工作，Mora可以熟练地进行广泛的视频生成任务，同时提供优越的编辑灵活性和视觉保真度，与Sora等已建立模型的性能相媲美。

为评估Mora的功效，使用了公开可用的视频生成基准Vbench中的基本指标和6个任务的自定义指标，包括文本到视频生成、文本条件图像到视频生成、扩展生成视频、视频到视频编辑、连接视频和模拟数字世界。Mora在文本到视频生成任务中取得了比现有开源模型更好的性能，仅次于Sora。在其他任务中，Mora也提供了有竞争力的结果，强调了我们框架的多功能性和通用能力。

文本主要贡献如下：

提出了一种开创性的元编程框架Mora，旨在加强多Agents协作。Mora定位为推进通用性视频生成任务边界。
研究表明，通过利用多个Agents的自动合作，包括文本到图像、图像到图像、图像到视频和视频到视频Agents，视频生成的质量可以显著提高。
Mora在6个视频相关任务中表现出了卓越的性能，超过了现有的开源模型。

Mora：用于视频生成的多Agents框架

基于Agent的视频生成

Agents。解决不同的视频生成任务通常需要具有不同能力的Agents的协作，每个Agents都提供专门的输出。在Mora中，我们有5个基本角色：提示选择和生成Agents、文本到图像生成Agents、图像到图像生成Agents、图像到视频生成Agents和视频到视频Agents。

方法。通过设置agent的角色和操作技能，可以为不同的任务定义基本工作流。本文设计了6个文本到视频生成任务：文本到视频生成、文本条件图像到视频生成、扩展生成的视频、视频到视频编辑、连接视频、模拟数字世界。

Agents模型选择

提示选择和生成：GPT-4
文本到图像生成：SDXL
图像到图像生成使用InstructPix2Pix
图像到视频生成：Stable Video Diffusion
视频连接：SEINE

实验

设置

基线。在文本到视频生成中，基线模型包括Videocrafter1、Show-1、Pika、Gen-2、ModelScope、LaVie-Interpolation、LaVie和CogVideo。在其他五个任务中，我们将Mora与Sora进行比较。

基本指标。对于文本到视频的生成，使用Vbench中的多个指标从视频质量和视频条件一致性两个方面进行评估。

对于视频质量的测量，我们使用六个指标：对象一致性、背景一致性、运动平滑度、审美分数、皮肤动态程度、成像质量。

为了测量视频条件的一致性，我们使用两个指标：时态风格、外观风格。

自定义指标。为了评估其他任务，我们还定义了4个指标。

结果

文本到视频生成。Mora在所有指标上都表现出了值得优秀的性能，使其与性能最好的模型Sora高度可比，并超越了其他竞争对手的能力。

文本条件图像到视频生成。Mora在文本条件图像到视频生成方面的能力的显著展示，紧跟在Sora之后。Sora和Mora的视频输出之间的定性比较显示，两个模型都巧妙地结合了输入提示和图像中的元素。

扩展生成的视频。虽然Sora在TCON和成像质量上略优于Mora，但是从定性的角度来看，Mora保持了叙事背景和视觉完整性，从而提供了与Sora几乎相同的表现。

视频到视频编辑。尽管与Sora相比有少许距离，但它为确定Mora未来迭代中目标增强的区域提供了有价值的见解。

视频连接。Sora比Mora在时间上保持了更一致的视觉叙事。Mora模型在中间视频中呈现出模糊的背景，导致无法区分物体识别。

模拟数字世界。与Sora的输出相比，Mora生成的图像颜色稍微柔和，物体边缘不明显，分辨率似乎更低。这表明Mora仍处于发展阶段，其生成能力需要进一步完善才能达到Sora的性能水平。

讨论

Mora的优势

开源贡献。Mora的开源性质被为人工智能社区的重大贡献，通过提供未来研究可以建立的坚实基础，鼓励进一步发展和完善。

Mora的限制

视频数据集。收集高质量的视频数据集带来了重大挑战，这主要是由于许多视频的版权限制。这一限制强调了在训练模型中，视频数据集的数量以及质量和多样性的重要性，以准确地理解和重建复杂的人类行为。

质量和长度差距。尽管采用了创新的方法，但Mora面临着显著的挑战，虽然Mora能够完成类似Sora的任务，但由Mora生成的视频质量非常短，特别是在涉及实质性物体运动的场景中。

指令跟随能力。尽管Mora能够在生成的视频中包括提示中指定的所有对象，但在执行某些功能时遇到限制。它很难解释和渲染提示中描述的运动动力学，如运动速度。这种不足主要源于系统对视频生成的基本方法，该方法在图像到视频的基础上操作，而没有从文本提示直接输入。

人类视觉偏好对齐。人类标记信息在视频领域的缺乏，表明实验结果可能并不总是与人类的视觉偏好一致，突出了一个显著的差距。

总结

Mora标志着从文本提示生成视频方面的巨大进步，为视频生成领域的适应性、效率和输出质量建立了新的基准。Mora在某些领域与当前领先的模型相当，甚至超过了其表现。然而，它与OpenAI的Sora模型有明显的差距，OpenAI的闭源性给学术界和专业社区的复制和创新带来了巨大的挑战。Mora是开源的，可以使更广泛的用户和开发人员更容易使用先进的视频生成技术，使社区能够在Mora框架和其他开创性工作所奠定的基础上进行建设。