做媒体服务，一定要有刻入骨髓的抽象思维。

视频化浪潮汹涌、生成式人工智能AIGC极速迭代、体验需求和应用场景愈发多样......面对“视频生产力”的变革，我们能否透过纷繁复杂的表象，洞察音视频行业的“真正需求”？

是否存在一套优雅的媒体服务设计，满足多方需求？如何“落地”实现价值？保持“持续生命力”的关键又是什么？

随着AIGC和大模型的能力加持，媒体服务的“全智能”又将如何演进？

本文由IMMENSE、「阿里云视频云」媒体服务负责人邹娟和LiveVideoStack策划、采访而成。

再探“真正需求”

大视频行业的真正“需求”是什么？

在视频化领域，关键无外乎是视频的生产与视频的消费。那么，关于大视频行业的真正“需求”，我们也可以从视频生产端和视频消费端两个维度来讨论。

对于视频生产端而言，快速、高效地生产视频可以抢占发布先机、吸引观众；而提供更优质、创新、综合体验好的视频内容可以留住观众。

对于视频消费端而言，最重要的是“体验”：题材新颖、有趣，内容丰富且有“获得感”；视频的画面和声音感官效果好；获取的信息是“第一手”、最新鲜的......

看似需求多样，实则无论是生产还是消费的需求，可以归结为两个关键词：“高时效” 和“高质量”。

规模化下，“高时效”和“高质量”可以两全吗？

“高时效”需要生产力和生产效率的提升，意味着相同时间内生产更多视频内容，这也会带来规模（数量、时长、行业、场景）的扩大。

在规模化之下，“高时效”与“高质量”看似难两全，但随着“云计算”与“人工智能”时代的到来，局面便大不相同了。

云计算既能提供海量、高并发、弹性的视频处理能力，还能将多种视频业务、多个视频场景，用最优的组织和调度方式，错峰亦或是混跑，这便实现了两个维度的“规模化”。在此之上，云可以将单个视频的高质量特性完美复刻，从而快速实现 “高质量”视频的规模化。

在此基础上，随着AI的不断发展和深入，智能能力在某些场景上比传统人力更精准、更高效，这也同样促成了规模化下的“高时效”与“高质量” 。

新数智时代，云和AI走向深度融合，而随着AIGC的大爆发，AI不再仅仅作为单点能力应用在某个环节，一切皆向着“全智能”演进。

“顶层设计”与“发动机”

云厂商面对“内容生产革命”，下一步“剑指何方”？

云厂商，天然的To B角色。由于不同行业、不同业务场景、不同需求的客户，所需的功能、性能、时效性、实现效果大相径庭。

因此，对云厂商来讲，开放、灵活、多场景的问题是必然需要解决的。

展开来说，视频的全链路从采集开始，历经制作、处理、管理、分发、消费，每一个环节包含了非常多所需的媒体原子能力。在面对不同场景以及不同行业的客户需求时，对这些原子能力的使用深度和组合方式，是十分不同的。

因此，经总结提炼和抽象后形成的统一“顶层设计”，便是云厂商的“制胜法宝”。

求本溯源，我们如何在“顶层”寻求解决之道？

首先，是将媒体原子服务“打散”，再“重组”。

这里，一是需要将视频全链路的媒体原子服务作细粒度拆分，并把每个服务做深做透；二是以一套灵活的编排机制，将这些原子服务依照客户的设想、场景、业务流，实现自由搭建和组装。

再者，是底层媒体技术的统一设计。

视频处理流程由解封装、解码、前处理、编码、封装这几个主要环节构成，我们需要一个下接算法、上联调度的“媒体引擎”，构建统一的媒体处理框架，将这些环节组织起来、支持多种算法、灵活集成插件、处理各类格式。

媒体原子服务的“打散”和“重组”，构建了媒体服务“最上层”可灵活编排的业务流，而统一“媒体引擎”是媒体任务在底层“执行层”实现高时效、高性能及丰富功能的基石。

最后，在二者之间，还需要统一的“媒体分布式服务框架和媒体元数据体系” 做一层连接，其中包括了：跨产品跨场景的统一媒资OneMediaID、统一工作流、统一的媒体业务流消息处理机制、统一的媒体任务管道调度机制等。

由此，形成了一套统一顶设的“媒体服务”。

其中，媒体引擎是当之无愧的“发动机”？

我们讲到了“媒体引擎”，它是整个媒体服务的底层核心，是所有媒体处理和媒体生产制作任务的执行器，既需要处理传统的媒体处理类的任务，也需要处理各式各样AI任务，从而真正实现下接算法，上联调度。

“媒体引擎”同时涉及“编排层”技术，以及“内核层”技术。这里的“编排”并不是指业务流的“编排”，而是单任务处理各环节的“编排”和算子的“编排” 。

通过统一的编排Pipeline及策略， “媒体引擎”能灵活支持不同任务的多种参数组合，并使得这些参数组合的执行效果达到画质、性能、码率、时效性等多维权重的综合最佳。

此外，“媒体引擎”还负责对任务进行最优的执行策略。

比如：是整段执行还是并行执行？是切片级别并行还是帧级别并行？是否需要调用特殊的组件甚至使用特殊的机型？以及算子是否存在依赖关系？.....我们把媒体引擎的这类决策能力称为“media worker brain”。

在这样的大脑调配之下，对任务最优执行策略的追求，亦是对“高质量”和“高时效”追求的一脉相承。

持续的生命力：灵活、开放、多业务

一个平台的持续生命力，源于什么？

反复强调“顶层设计”，因为作为ToB的云厂商，阿里云视频云一定要解决多业务、灵活、开放的问题。

我们既需要考虑不同客户业务的个性与特色，又不能全部case-by-case地贴身定制，因此我们一定要有“刻入骨髓”的抽象思维，需要时时刻刻总结、提炼、抽象，对产品、模块、服务、API的设计皆是如此。

于是，“顶层设计”可以避免每个业务板块或模块在各自“舒适”的体系里“野蛮发展”，一切皆从全局来规划权衡。

仔细看来，媒体服务的“顶设”先基于已有需求及客户场景，按照媒体服务的5大模块（媒体汇聚、媒体处理、媒体生产与制作、媒体管理、媒体消费），将媒体能力进行梳理、总结，并以“可复用”为依据，将其进一步打碎成细粒度的原子媒体能力，经过一层或多层的共性抽象，实现不同范围的Service。

比如：在媒体生产制作模块，媒体服务既提供了偏原子的VideoDetext去字幕服务，也提供了更综合的剪辑合成服务。

同时，需要将相对固定的和经过变化的部分进行分离，提供一些系统内置的媒体流程，降低客户的开发难度，而针对客户希望有更高灵活度的场景，还设计了类似可编程的脚本或策略进行自定义。

开放性也是媒体服务顶层设计的另一个关注点。

智能媒体服务的开放性体现在：除了支持阿里云产品的相关协议和能力之外，还支持国际或国内的标准协议及部分第三方厂商的协议和能力。

比如，在低延时传输这个领域，智能媒体服务除了支持自家的RTS之外，还支持LL-HLS、LHLS、Dash/CMAF等；

再比如，我们除了支持阿里云OSS作为媒体处理服务的输入输出之外，还支持AWS的S3、以及HTTP URL等；

还有，我们除了可以支持自研音视频及AI算法之外，也支持接入经过安全校验的三方AI算子等。

我们相信，只有开放与合作，才能让技术持续焕发生命力。

“顶设”落地，能让“高时效”再高一节吗？

当“顶设”帮我们突围了多业务、灵活、开放的壁垒，自然而然，就带来了更高的“高时效”。

深入其中，这包含4个维度的技术：

一是在工程架构层面，设计并实现 “并行”处理框架，将整段视频或时间线Timeline先分片Split，做“并行”处理后再进行“合并”，这项技术适合“中长视频”或输入为“多个素材”的场景；

二是针对“单片”任务进行 “性能优化” ，包括算法优化、指令集优化、算法在引擎层的工程优化、pipeline优化以及算法和调度的联合优化等，使得任务在考虑源文件适配、任务参数特性、机型及配置、资源水位等多维度情况下实现最优执行；

三是在“分布式服务层”优化媒体业务流的编排，让流程的Activities在更广的范围内自由连接，如：边录边转、边播边转等，这可以让不同的产品和服务通过同一流程串联起来，从而实现跨场景甚至跨产品的流程提速；

四是 “AI能力” 的加持，无论是在算法层、引擎层还是在分布式的服务层，在处理规模化视频时，可以将AI带来的优势极致发挥，实现“高时效”的进一步提升。

如果一切都在无限解决媒体服务的“高时效”，那“高质量”的完美实现，在当下可以更多的利用AI能力。

AI：日新月异的“加速力”

还追得上AI的迭代和AIGC的演进吗？

大模型和AIGC技术的发展，可以用“日新月异”来形容，其迭代速度史无前例，涌现出的各类垂直应用模型，也使得音视频行业的应用场景更加广泛和多样化。

更重要的是，大模型以及AIGC可以运用更大量的数据、更复杂的算法、以及更强力的算力支撑，大大提高音视频处理的精度和效果，带来无限想象。

在这场AIGC风暴之前，我们的媒体服务已先行布局，让AI能力可以灵活参与视频的各种智能化场景，将AI的迭代和AIGC的演进，纳入智能化的“顶层设计”。

针对AIGC的演进（以内容创作领域为例），从序曲开始，我们设定了五个阶段：

➤ 第一阶段（序曲）：AI负责素材的预处理，并按预设模版进行编排，实现视频全智能生产的第一个阶段。

➤ 第二阶段：在素材预处理之上，还能完成本属于视频创意环节的编排工作（脚本设计/Timeline设计），从而实现智能批量混剪。

➤ 第三阶段：面向特定场景和特定要求的成品，由AI根据已有成片反向解构分镜头，负责素材的搜索、筛选（以及部分素材生成）、处理、编排，并最终制作合成。

➤ 第四阶段：面向特定场景，AI负责理解场景的要求，包括素材的搜索、筛选（以及部分素材生成）、处理、编排，并最终制作合成。

➤ 第五阶段：针对多种场景，依据海量丰富的数据，AI能够自行发掘创意点，真正拥有“创作力”。

简扼来说，AI逐步渗透业务，从能力到场景，先单例后普适、先局面再整体、先执行再创意，完成AI从辅助业务到对业务全智能变革的演进。

可以看出，从前的AI只是辅助创作，而今天的AI已然可以成为创作的主角。

再往前看，无论元宇宙还是Web3.0，下一代互联网的繁荣需要海量的数字内容，对内容的数量、形式和交互性都提出了更高的要求。

举例来说，很多基于大模型的图像增强、实景抠图等技术，在效果上已优于传统AI算法；再比如，运用Text to Video（文本转化为视频）生成几秒空镜头、Image to Video（图像转化为视频）生成一段连续动作的视频，不仅能解决高质量的问题，还能实现“无中生有”的突破之作。

未来，运用AIGC的能力，智能媒体服务在生产制作领域，可以极大提升“一键成片”的效果，在智能生成、时间线的智能编排，以及智能剪辑和包装等各环节，都将逐一击破生产制作的效率、质量痛点；在媒资领域，也能运用AIGC生成视频摘要等，为媒资管理提供更多新能量。当然，全方位的探索都在进行中。

大模型时代的AIGC，期待不止。

7月28日下午

LiveVideoStackCon2023上海站

阿里云视频云专场

阿里云智能资深技术专家

《从规模化到全智能：媒体服务的重组与进化》

一起探索媒体服务的创新“顶设”！

讲师海报-邹娟.png

质效两全：媒体服务的创新“顶设”