日前,ACM SIGCOMM 2022 WORKSHOP 正式公布今年的入选论文,腾讯边缘云应用框架团队提交的 “AutoPlex: Inter-Session multiplexing Congestion Control for Large-Scale Live Video Services”成功入选,并获得学术界与工业界专家评委高度评价。该论文提出了业界首创的基于流间信息复用的自适应拥塞控制架构——AutoPlex,实现音视频流量跨广域网传输的自适应拥塞控制。
ACM SIGCOMM是计算机网络领域资历最老、含金量最高的会议,位列网络通信领域会议之首,其Workshop涵盖当前网络研究最为热门的几个领域(如5G、可编程网络设施、网络应用融合等)。所以本次腾讯边缘云应用框架团队成功入选,是获得网络业界顶级会议及专家评委的一致认可的;自适应拥塞控制架构AutoPlex的提出,更有利于推动腾讯边缘云业务的网络传输朝着更加智能化与自动化的方向发展。
一、研究背景及动因
近年来,随着音视频业务的高速发展,网络传输性能已成为影响用户体验的关键因素之一,研究如何改善网络传输性能并优化用户侧QoE成为各个云服务厂商最关注的焦点。
现有算法聚焦于设计、优化拥塞控制算法以实现音视频流量的高效传输:一方面基于规则的拥塞控制算法(如BBR、Cubic、Reno等),在某些特定的网络状态或服务条件下可能会带来更好的性能收益,但是这些算法将拥塞控制参数设置为某个固定数值的方式,显然不能适应所有的网络条件;另一方面,基于机器学习的方法可以为不同的网络状态与条件设置灵活的拥塞控制参数值,但在精确性(监督学习)、收敛性(强化学习)、稳定性(机器学习)等方面仍面临诸多挑战。
研究动机
(1)音视频业务需要灵活的拥塞控制算法。大量的研究结果表明,不存在能够完全适应不同地域和国家间差异化网络状态与条件的拥塞控制算法;以腾讯云某第三方视频直播平台为例,团队测量到该平台在马来西亚的平均时延为86ms,而在中国海南省则为36ms;类似的,在海南省的平均可用带宽为7.3Mbps,而在土耳其却是3.2Mbps;与此同时,在土耳其的平均重传率为5.2%,而在巴西却是3.8%;因此,同一套拥塞控制算法及其参数设置很难完全适应各种网络条件与网络状态。
(2)面向用户群组的机器学习算法扩展性较差。以巴西为例,如果以“国家-州-AS号”为标准进行用户群组划分,则可获得18620个用户群组,而前100个用户群组仅能覆盖27.3%的视频直播会话,如表1所示。在这种情况下,若为每个用户群组配置单独的神经网络模型,则将会带来巨大的计算与存储开销。
(3)不同用户群组之间视频会话的性能差异较大。如图1所示,三个用户群组的视频直播会话的重传率、平滑RTT、有效吞吐量等具有明显的差异。
(4)在同一个用户群组中,相邻周期中那些“表现较好”的音视频会话在性能指标及拥塞控制参数等方面具有一定的相似性。团队提取了一周时间范围内音视频会话的相关网络QoS数据,如图3所示,相邻时间周期之间那些“表现较好”的音视频会话在有效吞吐量、最大发送窗口、最大在途数据量等指标上具有一定的相似性。
二、首创AutoPlex自适应拥塞控制框架
针对以上现状和挑战,本论文中,团队提出一种基于流间信息复用的自适应拥塞控制框架AutoPlex,增强了现有算法对不同网络状态和条件的适应能力,同时兼顾稳定性、精确性和收敛性等优势。
论文指出,通过大规模网络测量,发现相邻时间周期之间那些“表现较好”的音视频会话在网络QoS特性等方面具有较大的相似性;而AutoPlex充分利用了该相似性,通过提取每个用户群组中的“表现优异”的会话信息,实现对下一阶段拥塞控制参数的自动化配置。与此同时,AutoPlex架构支持用户自定义的优化目标,可实现对丢包重传率、吞吐量等目标的定向优化。
AutoPlex已在多个腾讯自研业务中部署使用,并在第三方视频直播业务中进行大规模灰度测试,实验结果表明AutoPlex可优化24%-27%的平均重传率和14-32%的平均有效吞吐时延比。
核心架构
AutoPlex自适应拥塞控制架构包括测量模块、决策模块和运行模块。其中测量模块主要负责执行面向用户群组的周期性网络QoS统计;决策模块可接受用户自定义的网络QoS优化目标,并筛选出那些“表现较好”音视频会话的网络QoS及拥塞控制参数值,最后为每个用户群组自动化配置相应的拥塞控制策略;执行模块负责根据用户请求,获取其对应用户群组的参数配置信息,并实现对该音视频会话流量传输的自适应拥塞控制。
AutoPlex自动化复用相邻时间周期的音视频会话信息,实现对每个用户群组拥塞控制参数(如发送窗口与发送速率等)的自适应配置,在充分适应动态化的网络状态与差异化的网络条件的同时,有效地保证了流量传输控制的准确性与稳定性。算法1展示了AutoPlex架构在实现发送窗口与发送速率精确控制的相关细节。
值得一提的是,算法1中的函数f( )表示取均值、最大值、最小值等一系列操作的集合,具体规则可由网络管理员配置,也支持基于强化学习的动作空间选择。
三、实验效果及落地应用
AutoPlex架构已实现腾讯相关自研业务的落地使用,根据业务场景选择最优算法和参数。在腾讯广告,下载,视频,信令登陆等场景都取得了较好效果,同时在第三方音视频直播平台中也在逐步灰度使用。AutoPlex架构实现24%∼27%(32%∼44%)音视频直播流量的平均(90分位点)重传率优化,如下图所示:
并实现了14%~32%的平均有效吞吐时延比(即goodput/rtt)的优化,如下图所示:
四、业界影响力
自适应拥塞控制架构AutoPlex的提出,推动了腾讯边缘云业务的网络传输朝着更加智能化与自动化的方向发展,提升直播、点播、加速等业务的用户体验。
SIGCOMM专家评委也对本论文给予了充分肯定:
①审稿人评价:“这是一篇高质量论文!本文提出了一种可以部署在CDN代理上的拥塞控制架构,该架构可以学习‘表现较好’的音视频会话,并根据网络状态的变化自适应调整拥塞控制参数”;“音视频会话QoS与用户群组的关联关系是本文的重要发现,在同一个用户群组中,表现较好的音视频会话具有相似的网络QoS与参数特性。”
②审稿人评价:“本文提出的 AutoPlex是一种基于会话间信息复用的拥塞控制框架,能够使用最佳性能流的网络QoS 指标(之间的相似性)来自动配饰拥塞控制参数。另外,AutoPlex架构支持用户定义的优化目标,可以作为学习标准来提取性能更好音视频会话的网络QoS 特征。”;“作者还实现了基于QUIC协议和BBR的AutoPlex解决方案及性能评估。”;“论文的另一个重要贡献在于面向音视频业务提供了大规模的网络流量测量。”
附录:
关于SIGCOMM
SIGCOMM(全称Special Interest Group on Data Communication)由美国计算机学会ACM举办,其特点是对论文的质量和数量要求极高,质量上要求具有基础性贡献、领导性影响和坚实系统背景,数量方面每年只录用30篇左右的正式会议论文。由于SIGCOMM录用的论文大多数都会被广泛引用、具有非常大的影响力,因此能在SIGCOMM及其子会上发表论文是所有通信网络研究者的荣誉。
关于腾讯边缘云接入框架
接入平台研发是腾讯云架平核心业务之一,为腾讯云内外部客户以及自营业务提供高质量的网络接入服务,解决业务跨网互通,统一接入等问题。我们致力于用技术力量持续为客户提供更快,更强,更稳定的网络服务,帮助客户提升网络体验,降低成本。
作者:腾讯CDN团队
文章来源:腾讯技术工程
推荐阅读
更多腾讯AI相关技术干货,请关注专栏腾讯技术工程 欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。