AliRTC 开启视频互动 “零计算” 时代

在 2021 云栖大会《产业视频化创新与最佳实践》视频云主题论坛中，阿里云智能高级技术专家在《AliRTC 开启视频互动 "零处理" 时代》的主题演讲中，发布了阿里云视频云下一代实时交互解决方案 —RTC “零处理”，同时分享了阿里云视频云在 RTC 产品的探索和实践，以下为演讲内容整理。

一、交互演进与挑战

在过去几年，视频交互产品发生了什么变化？

我们认为 RTC 产品对行业产生了两次非常重要的变革。

第一次变革是 2014 年开始的交互从图文到音视频的升级。

2014 年，互联网创业者与 RTC 产品供应商一起探索视频互动的商业化，教育、娱乐成为主要的突破方向，基于全球范围内的互动授课、秀场视频连麦、多人交友互动，也大多在这时间点完成了商业与技术的成功结合。

2017 年是一个标志性的时间点，RTC 产品已经帮助头部互联网客户实现了颠覆性发展，标志着互动视频技术与在线互动商业模式的成熟。

接下来几年更多的是不同体量、不同场景的规模复制，所以我们能看到，在 2018 年以及后续的几年，市场上并没有新场景、新互动的创新，而是基于不同内容、不同客群的业务复制，视频互动从头部走向更多的细分市场。

第二个重要变革发生在 2020 年，受疫情影响，让云视频会议全面渗透，让这个时间提前了至少 5 年。

这次市场的变化，我们不能称之为一次技术革命，实际上对 RTC 产品并没有新的诉求，也没有产生新的互动场景和技术，但这次大规模的渗透，重新定义了供应商的市场格局，第一次让云厂商成为了市场极其重要的一部分，让市场从单一的会议厂商，分裂为云平台 + 会议终端供应商，让我们的客户有了更多的选择。

从 2018 年到现在我们没有场景上的根本突破，是不是因为我们的技术上遇到了瓶颈？

带着这样的问题，阿里云对 RTC 场景技术进行了深入的技术评测，我们试图发现整个行业大家的技术水位是什么样的，不同于单项的视频技术，RTC 的评测要更为复杂。

例如，对视频编码，我们可以通过 PSNR，SSIM，VMAF 等来分析，对于视频分类等视觉算法，我们可以通过 ROC 曲线来分析，但对视频 RTC 来说，涉及的主观感受非常多，是一件比较复杂的事情，目前业界也没有统一的评测标准。

我们从这些影响用户感受的指标里面抽出六个维度表征 RTC 的表现质量。

对评测感兴趣的话可以关注我们的「视频云技术」公众号，里面详细介绍了我们怎么进行自动化评测的，评测过程中我们会创造不同的网络环境，检测 RTC 在各方面的表现。

我们对行业里的 RTC 做了一些评测，发现有两个特点。

第一，RTC 有明显的技术门槛，比如说绿色的框代表一类典型的 RTC 能力，由规模较小的团队自研，投入较小，会有明显的差距。

第二个是几个比较大的供应商，包括在阿里云在内，外面这一圈，红色的线、蓝色的线，以及黄色的线，他们都处于相对比较一致的水平，但是没有一家有特别优秀的地方，所以技术同质化特别严重，大家基本上处于同样的水平。

我们当前视频的实时互动主要集中在线上线下场景，未来可能会有更广阔的应用场景，比如说一些交互场景，VR 操控类、虚拟现实类。

这时候我们会思考一个问题，我们的技术是不是已经发展到了瓶颈期，我们无法满足未来更广泛的需求，这后面的原因是什么？会不会是我们的技术发展到某个瓶颈了？因为技术通常是阶跃式的发展，不能突破就会陷入在一个层次上。

二、“零处理” 加速交互升级

我们希望分析一下，现在用户的体验到底怎么样？我们现在的技术存在什么问题？

通过比较各家 RTC 供应商，我们发现一个比较有意思的点，就是大家有千分之二的卡顿率是难以消除的。50%、60% 的丢包都可以做的很好，但是如果网络带宽受限，千分之二的卡顿就难以消除了。

我们有一些手段可以解决类似的问题，比如利用窄带高清技术，我们可以通过复杂计算解决这些问题，也可以通过非标屏幕编码类技术解决，但是实际上我们很难把这些技术进行非常广泛的利用。

最根本的原因是我们会发现端侧能力是有限制的，大家的手机各不相同，有可能有些人的手机特别好，可以做复杂算法，有些人手机差，无法进行复杂算法，同时，端的碎片化比较严重，要对所有端适配是比较困难的。

在应用上我们希望能够提供更有趣的交互，比如说实时生成卡通人物形象，这在端上可以运行，但是只有少数非常强大的设备才能运行。

一个自然的想法是，我们是不是能突破当前的应用架构？

我们把一个完全依赖端能力的架构，逐步转变成依靠云和端一起配合进行视频传输处理的架构，基于这个想法我们提出了云处理 + 端渲染技术，目的是希望从云上提供强大的处理能力，端上负责渲染，只需要提供很少的处理能力就能完成比较好的处理效果，使大家在不同的手机上都能得到一样的体验。

这就是视频云“零处理” 解决方案的基本架构图，在端上只需要进行比较简单的视频采集以及视频传输，然后通过我们构建的覆盖全球的 GRTN 网络到达云端，云端使用 GRTP 的云端实时处理引擎对视频进行处理，再把处理好的视频传到端上，端上只需要做简单的呈现。这样可以很好的解决刚才提到端计算能力不够和碎片化的问题。

但是天下没有免费的午餐，采用上面的架构，很容易发现几个问题。

第一，我们的云上是不是能承受这么大规模的处理。

第二，云上能不能承担这么大规模的成本。

第三，云上能不能持续提供这么多类型的处理服务。

我们自己的信心来自于几个方面。

第一，通过阿里多年的积累，我们积累了业界最大规模的云上视频处理集群，所以我们在技术上已经具备承担超大规模处理的能力。

第二，关于成本。

下图是我们处理的一张业务图的示例图，横坐标是时间，纵坐标是资源使用量，黑色的线一种业务，红色线是另一种业务，可以看到，每种业务都存在大量的业务空闲期，业务空闲期可以让我们有大量资源供我们复用，当我们把多种业务混跑时，就能把资源利用起来，大幅度降低成本。

除了在时间上的混跑，我们也可以通过空间上的混跑和异构的混跑，将整体的成本降下来。

第三，由于我们背靠阿里集团，包括我们自己也有很多视频算法处理积累，所以我们有机会持续不断的提供丰富的算法和处理能力。

三、“零处理” 实践分享

接下来是阿里云视频云在零处理的实践。

第一个场景是使用 MCU 解放端侧算力。

通常情况下，我们做 RTC 直播时，观众看到的直播画面是通过 RTMP 协议来完成的，这种情况下由于延迟的原因观众是无法参与到直播互动的。要增强观众的互动性，需要大家都加入 RTC 网络，每个端订阅多个流对端的算力和网络流量都是非常大的负担。

我们通过云端的 MCU 把流合并，重新进入到 RTC 会议里，这样观众可以通过 RTC 方式看到直播流，非常方便进行互动，同时也无需消耗过多的端上资源。这种模式我们称为互动低延时模式，已经是我们一个成熟的产品能力。

第二个场景，云转推。

这是一个我们打通阿里内部服务能力的例子，我们通过和阿里集团安全部的合作，将 RTC 的流通过内网和安全部的产品打通，减少了中间环节，实现低成本、低延迟的内容审核。

第三个场景，云特效。

相信这个场景大家已经看过，利用云端的处理，我们实现了虚拟会议室，通过云端的 MCU 将所有人进行抠图 + 贴图，来提升视频会议时的参会体验，这是阿里内部开会时已经可以运用到、并看到的技术。

上面展示的实时虚拟形象，是依托 GRTN 实时传输网络，将视频流传输到云端，云端对视频进行抠图，变声，卡通化等复杂的 AI 处理，终端只负责展示，从而实现了端侧零处理。

“零处理“作为下一代实时交互解决方案，在云厂商中率先推出，解决了新交互时代因端侧算力受限而无法实现的虚拟交互场景难题，充分利用云端一体的超精细算力，以云特效构建实时虚拟场景，是全面打开沉浸交互新世界的一项重要演进。

AliRTC 系列内容

阿里云 RTC QoS 屏幕共享弱网优化之若干编码器相关优化

阿里云 RTC QoS 弱网对抗之变分辨率编码

阿里云 RTC QoS 弱网对抗之 LTR 及其硬件解码支持

「视频云技术」你最值得关注的音视频技术公众号，每周推送来自阿里云一线的实践技术文章，在这里与音视频领域一流工程师交流切磋。公众号后台回复【技术】可加入阿里云视频云产品技术交流群，和业内大咖一起探讨音视频技术，获取更多行业最新信息。

一、交互演进与挑战

二、“零处理” 加速交互升级

三、“零处理” 实践分享

AliRTC 系列内容

推荐阅读

目录