14

微软推出Mora,对标Sora,多项测评超越开源SOTA,效果接近Sora

Mora: Enabling Generalist Video Generation via A Multi-Agent Framework

image.png

Sora的爆火带动了AI视频生成的关注,然而闭源的Sora为后续研究带来了挑战。为了解决这个问题,近日理海大学和微软联合推出Mora多Agents视频生成框架,通过整合多个SOTA的AI模型,复现Sora的通用视频生成能力。

image.png

论文地址:https://arxiv.org/pdf/2403.13248.pdf

Github地址:https://github.com/lichao-sun/Mora

摘要

Sora是第一个引起社会广泛关注的大规模视频生成模型。自OpenAI于2024年2月推出以来,没有其他视频生成模型能与Sora的性能或其支持广泛视频生成任务的能力相媲美。为解决这一差距,本文提出一种新的多Agents框架Mora,Mora可以利用多个视觉Agents,并在各种任务中成功地模拟Sora的视频生成能力。实验结果表明,Mora在各种任务中取得了接近Sora的性能。

image.png

简介

最近的视频生成模型(如Pika和Gen-2),已经证明了它们产生多样化和高质量视频的能力,但它们一直受到创建超过10秒的更长时间视频的能力的限制。OpenAI的Sora引发了革命性的转变,标志着视频生成的新时代。然而由于Sora是闭源的,阻碍了研究人员复制或扩展Sora的能力。

image.png

为解决当前视频生成模型的局限,本文探索了多Agents协作在完成通用视频生成任务方面的潜力。本文提出一种多Agents框架Mora,利用各种先进的大型模型来实现类似Sora的文本到视频功能。将视频生成分解为几个子任务,每个子任务分配给一个专门的Agents:

  • 1)增强用户提供的提示
  • 2)从输入文本提示生成图像
  • 3)根据文本提供的增强条件编辑或细化图像
  • 4)从生成的图像生成视频
  • 5)连接两个视频

通过自动组织Agents在这些子任务中循环和置换,Mora可以通过灵活的流水线完成广泛的视频生成任务,从而满足用户的多样化需求。

Mora在推理过程中独特地产生一个中间图像或视频,能够保留文本到图像模型中固有的视觉多样性、风格和质量。通过有效地协调文本到图像、图像到图像、图像到视频和视频到视频Agents的工作,Mora可以熟练地进行广泛的视频生成任务,同时提供优越的编辑灵活性和视觉保真度,与Sora等已建立模型的性能相媲美。

为评估Mora的功效,使用了公开可用的视频生成基准Vbench中的基本指标和6个任务的自定义指标,包括文本到视频生成、文本条件图像到视频生成、扩展生成视频、视频到视频编辑、连接视频和模拟数字世界。Mora在文本到视频生成任务中取得了比现有开源模型更好的性能,仅次于Sora。在其他任务中,Mora也提供了有竞争力的结果,强调了我们框架的多功能性和通用能力。

文本主要贡献如下:

  • 提出了一种开创性的元编程框架Mora,旨在加强多Agents协作。Mora定位为推进通用性视频生成任务边界。
  • 研究表明,通过利用多个Agents的自动合作,包括文本到图像、图像到图像、图像到视频和视频到视频Agents,视频生成的质量可以显著提高。
  • Mora在6个视频相关任务中表现出了卓越的性能,超过了现有的开源模型。

Mora:用于视频生成的多Agents框架

image.png

基于Agent的视频生成

Agents。解决不同的视频生成任务通常需要具有不同能力的Agents的协作,每个Agents都提供专门的输出。在Mora中,我们有5个基本角色:提示选择和生成Agents、文本到图像生成Agents、图像到图像生成Agents、图像到视频生成Agents和视频到视频Agents。

方法。通过设置agent的角色和操作技能,可以为不同的任务定义基本工作流。本文设计了6个文本到视频生成任务:文本到视频生成、文本条件图像到视频生成、扩展生成的视频、视频到视频编辑、连接视频、模拟数字世界。

Agents模型选择

  • 提示选择和生成:GPT-4
  • 文本到图像生成:SDXL
  • 图像到图像生成使用InstructPix2Pix
  • 图像到视频生成:Stable Video Diffusion
  • 视频连接:SEINE

实验

设置

基线。在文本到视频生成中,基线模型包括Videocrafter1、Show-1、Pika、Gen-2、ModelScope、LaVie-Interpolation、LaVie和CogVideo。在其他五个任务中,我们将Mora与Sora进行比较。

基本指标。对于文本到视频的生成,使用Vbench中的多个指标从视频质量和视频条件一致性两个方面进行评估。

对于视频质量的测量,我们使用六个指标:对象一致性、背景一致性、运动平滑度、审美分数、皮肤动态程度、成像质量。

为了测量视频条件的一致性,我们使用两个指标:时态风格、外观风格。

自定义指标。为了评估其他任务,我们还定义了4个指标。

image.png

结果

文本到视频生成。Mora在所有指标上都表现出了值得优秀的性能,使其与性能最好的模型Sora高度可比,并超越了其他竞争对手的能力。

image.png

文本条件图像到视频生成。Mora在文本条件图像到视频生成方面的能力的显著展示,紧跟在Sora之后。Sora和Mora的视频输出之间的定性比较显示,两个模型都巧妙地结合了输入提示和图像中的元素。

image.png

扩展生成的视频。虽然Sora在TCON和成像质量上略优于Mora,但是从定性的角度来看,Mora保持了叙事背景和视觉完整性,从而提供了与Sora几乎相同的表现。

image.png

视频到视频编辑。尽管与Sora相比有少许距离,但它为确定Mora未来迭代中目标增强的区域提供了有价值的见解。

image.png

视频连接。Sora比Mora在时间上保持了更一致的视觉叙事。Mora模型在中间视频中呈现出模糊的背景,导致无法区分物体识别。

image.png

模拟数字世界。与Sora的输出相比,Mora生成的图像颜色稍微柔和,物体边缘不明显,分辨率似乎更低。这表明Mora仍处于发展阶段,其生成能力需要进一步完善才能达到Sora的性能水平。

image.png

讨论

Mora的优势

开源贡献。Mora的开源性质被为人工智能社区的重大贡献,通过提供未来研究可以建立的坚实基础,鼓励进一步发展和完善。

Mora的限制

视频数据集。收集高质量的视频数据集带来了重大挑战,这主要是由于许多视频的版权限制。这一限制强调了在训练模型中,视频数据集的数量以及质量和多样性的重要性,以准确地理解和重建复杂的人类行为。

质量和长度差距。尽管采用了创新的方法,但Mora面临着显著的挑战,虽然Mora能够完成类似Sora的任务,但由Mora生成的视频质量非常短,特别是在涉及实质性物体运动的场景中。

指令跟随能力。尽管Mora能够在生成的视频中包括提示中指定的所有对象,但在执行某些功能时遇到限制。它很难解释和渲染提示中描述的运动动力学,如运动速度。这种不足主要源于系统对视频生成的基本方法,该方法在图像到视频的基础上操作,而没有从文本提示直接输入。

人类视觉偏好对齐。人类标记信息在视频领域的缺乏,表明实验结果可能并不总是与人类的视觉偏好一致,突出了一个显著的差距。

总结

Mora标志着从文本提示生成视频方面的巨大进步,为视频生成领域的适应性、效率和输出质量建立了新的基准。Mora在某些领域与当前领先的模型相当,甚至超过了其表现。然而,它与OpenAI的Sora模型有明显的差距,OpenAI的闭源性给学术界和专业社区的复制和创新带来了巨大的挑战。Mora是开源的,可以使更广泛的用户和开发人员更容易使用先进的视频生成技术,使社区能够在Mora框架和其他开创性工作所奠定的基础上进行建设。

作者:灵度智能
文章来源:灵度智能

推荐阅读

更多嵌入式AI干货请关注嵌入式AI专栏。欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。

推荐阅读
关注数
16581
内容数
1230
嵌入式端AI,包括AI算法在推理框架Tengine,MNN,NCNN,PaddlePaddle及相关芯片上的实现。欢迎加入微信交流群,微信号:aijishu20(备注:嵌入式)
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息