超神经HyperAI · 8 小时前 · 北京

入选NeurIPS 2025,智源/北大/北邮提出多流控制视频生成框架,基于音频解混实现精确音画同步

相较于文本,音频天然具备连续时间结构和丰富的动态信息,能够为视频生成提供更精细的时序控制。因此,随着视频生成模型的发展,音频驱动的视频生成也逐渐成为多模态生成领域的重要研究方向。目前,相关研究已覆盖说话人动画、音乐驱动视频以及音画同步生成等多个场景,但在复杂视频内容中,实现稳定且精确的音画对齐仍然具有较高难度。

现有方法的主要限制来自对音频信号的建模方式。多数模型将输入音频作为整体条件引入生成过程,未区分语音、音效与音乐等不同音频成分在视觉层面承担的功能角色。这种处理方式在一定程度上降低了建模复杂度,但也使音频与视觉之间的对应关系趋于模糊,难以同时满足唇形同步、事件时序对齐与整体视觉氛围控制等需求。

针对这一问题,北京智源人工智能研究院、北京大学、北京邮电大学共同提出了一种基于音频解混的音画同步视频生成框架, 将输入音频拆分为语音、音效和音乐三类音轨,并分别用于驱动不同层级的视觉生成过程。该框架通过多流时间控制网络,以及配套的数据集与训练策略,能够在时间区间和全局层面实现更明确的音画对应关系。实验数据显示,该方法在视频质量、音画对齐和唇形同步等指标上均取得了稳定提升,验证了音频解混与多流控制在复杂视频生成任务中的有效性。

相关研究成果以「Audio-Sync Video Generation with Multi-Stream Temporal Control」,已入选 NeurIPS 2025。

论文地址:

https://arxiv.org/abs/2506.08003

研究亮点:

  • 构建由五个重叠子集组成音频同步视频生成数据集DEMIX,并提出学习视听关系的多阶段训练策略。
  • 提出MTV框架,通过将音频拆分为语音、音效和音乐三类音轨,分别控制唇形运动、事件时序和整体视觉氛围等不同视觉要素,实现更明确的语义控制
  • 设计多流时间控制网络(MST-ControlNet),在同一生成框架内同时处理局部时间区间的精细同步和全局风格调节,从结构上支持不同音频成分在时间尺度上的差异化控制。

多功能生成能力

MTV 具有多功能生成能力,例如:以角色为中心的叙事,多角色互动,声音触发事件,音乐营造的氛围以及相机运动。

DEMIX 数据集引入解混音轨标注,实现分阶段训练

在这里插入图片描述

本文首先通过详细的过滤流程得到 DEMIX 数据集,过滤后的 DEMIX 数据被结构化为五个重叠的子集: 基本面部、单人、多人、事件音效和环境氛围。基于五个重叠的子集,本文引入了多阶段训练策略, 逐步扩大模型的规模。首先,使用基本面部子集训练模型学习嘴唇运动;模型接着在单人子集上学习人体姿势、场景外观和相机移动;随后,在多人子集上训练模型,以处理有多个说话者的复杂场景;然后,本文训练重点转移到事件时序,并使用事件音效子集将主体理解从人类扩展到对象;最后,本文在环境氛围子集上训练模型,以提高其对视觉情绪的表示。

基于多流时间控制机制,实现精确的视听映射和准确的时间对齐

在这里插入图片描述

本文明确地将音频分为三个不同的控制轨道:语音、音效和音乐。 这些不同的轨道使 MTV 框架能够精确控制嘴唇动作、事件时序和视觉情绪,解决了模糊的映射问题。为了使 MTV 框架与各种任务兼容,本文创建了一个模板来构建文本描述,此模板以一个表示参与者数量的句子开头,例如「Two person conversation.」;然后,它会列出每个人,从一个唯一的标识符(Person1,Person2)开始,简要描述他们的外表;列出参与者后,模板明确指定了当前正在发言的人;最后,一个句子提供了对场景的总体描述。为了实现精确的时间对齐,本文提出了多流时间控制网,它通过明确分离的语音、效果和音乐曲目来控制嘴唇运动、事件时序和视觉情绪。

区间特征注入

对于语音和音效特征,本文设计了区间流来准确控制嘴唇运动和事件时序, 通过区间交互模块提取每条音轨的特征,并利用自注意力机制模拟语音和音效之间的相互作用,最后使用交叉注意力将交互后的语音和音效特征注入到每个时间区间中,称为区间特征注入机制。

整体特征注入

对于音乐特征,本文设计整体流来控制整个视频片段的视觉情绪, 因为音乐特征是整体美学的表现,首先通过整体上下文编码器从音乐中提取整体视觉情绪,并应用平均池化来获得整个片段的全局特征,最后使用全局特征作为嵌入,通过AdaLN对视频潜码进行调制,称为整体特征注入机制。

精准生成电影级音频同步视频

综合评价指标

在这里插入图片描述

为验证多阶段训练策略在不同学习阶段中的有效性,论文在实验部分采用了一组覆盖视频质量、时间一致性以及多模态对齐能力的综合评价指标,用于系统性评估模型在逐步引入复杂控制信号后的整体稳定性与一致性表现,并对比了三种最先进的方法。

在生成质量与时序稳定性方面,研究采用 FVD 衡量生成视频与真实视频在分布层面的差异,并使用 Temp-C 评估相邻帧之间的时间连续性。结果显示,MTV 在 FVD 上显著优于现有方法,表明在引入更复杂音频控制的情况下,模型并未牺牲整体生成质量,同时在 Temp-C 上保持了较高的时间稳定性。

在多模态对齐层面,研究分别通过 Text-C 和 Audio-C 衡量视频与文本、音频之间的一致性。其中,MTV 在 Audio-C 指标上取得了明显提升,远高于对比方法,反映出音频解混与多流控制机制在强化音画对应关系方面的有效性。

针对语音驱动场景中的关键问题,论文引入 Sync-C 与 Sync-D 两项同步指标,分别评估同步置信度与误差幅度,并同样取得最优表现。

对比结果

在这里插入图片描述

如上图所示,研究人员将 MTV 框架与当前 SOTA 级别成果进行了对比。从视觉表现上看,现有方法在处理复杂文本描述或电影级场景时普遍存在稳定性不足的问题。

例如,即便利用官方代码在 8 块 NVIDIA A100 GPU 上对 MM-Diffusion 进行超过 32 万步微调,其仍难以生成具有一致叙事结构和视觉连贯性的画面,整体风格偏向于局部片段拼接。而 TempoTokens 在面对复杂场景时,则容易出现人物表情和动作不自然的问题,尤其在多人或高动态场景中,生成结果的真实性受到明显影响。在音画同步方面,Xing 等人的方法难以实现特定事件时序的音频同步,致使吉他演奏中人物手势渲染错误(如上图右侧所示)。

相比之下,MTV 框架在多种场景中能够同时保持较高的视觉质量与稳定的音画同步效果,能精准生成具备电影级品质的音频同步视频。

参考链接:
1.https://arxiv.org/abs/2506.08003

推荐阅读
关注数
682
内容数
378
链接人工智能新场景
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息