本期主要内容:实时互动场景下,音频的技术变迁与机遇;开源十年,WebRTC的现状与未来;2021年带你漫游语音识别技术
卷首语
线上会议、在线教育、电商直播等多个场景的兴起,让实时音视频互动技术从幕后走到台前,得到了更多人的关注。编解码、网络传输、计算机视觉等 RTE 相关的一系列技术也正焕发出更强的生命力。
在 RTC 技术领域,如何兼顾实时视频传输的低延时和视频质量,以及如何评定视频传输质量,始终都是备受关注的话题。随着 5G 的商用,视频传输在协议层、应用层又面临着一些急需解决的变革。
根据北京大学王选计算机研究所的张行功教授的介绍,5G 出现后,会对传输层协议的要求更高,这里面主要有几个原因:首先是由于 5G 的带宽更大了,然后是由于 5G 的抖动,不管是延迟抖动还是带宽波动都会更大,已经远远超出了 4G 范畴。
这里先解释一下,为什么 5G 网络抖动会更大?通过测量发现,5G 是通过时间片方式调度频谱资源,这意味着将某个时间片分配给一个用户时,它带宽资源是独占的,但在其他时刻是得不到网络资源的。因此,如果我们从非常细的粒度,比如从某一个数据包的角度来看,它的延时波动以及数据包之间的带宽波动都会非常剧烈。5G 的理论带宽是 1GB/s,所以一旦出现某个时间片未将资源分配你的时候,那么你的带宽波动会非常大。
除了以上两点,5G 会带来边缘计算的普及,未来很多数据和服务都会放在一些边缘服务器上。边缘计算加上 5G 的整个物理带宽和延时的提升,会倒逼传输层协议的改进。不管是传统的 TCP 还是这些年大家比较关注的像 QUIC、BBR,以及一些私有协议。现在的传输层协议已经存在 40 年了,存在较大变革的需求。
另外从应用层的角度讲,比如说我们说的 ABR 或其它业务层相关的算法,随着 5G 商用后,都会在边缘节点发挥作用。因此,内容缓存算法、动态自适应、分布式视频编码和处理等,都会迁移到边缘节点上,而且对这些算法的性能和交互能力提出更高的要求。
5G 会推动 VR、AR、云游戏等实时视频应用场景的发展。从应用层的算法,包括海量节点、小存储,到实时交互、边缘节点的业务层算法等都会得到改进。
从视频通信、网络传输方面,在 2020 年出现了一些比较新的场景,例如云游戏和云桌面。其本质上就是实时视频,但是技术挑战会比传统的视频更大。因为其对延时要求很苛刻,人的行为很难预测。2020 年有一些技术尝试,但是效果不是很理想。所以在今年,业界还会有更多新角度的尝试来解决这些问题。
第二个就是面向 5G 以及卫星网络的研究和应用。5G 网络已经开始商用,卫星网络方面,我们已经可以看到 Elon Musk 的 StarLink 也开始提供测试服务了。所以面向新型网络的低延时传输研究也会是 2021 的热点之一。
视频传输方面。在 2020 年,机器学习、强化学习等方法更多地被用在了网络领域,包括传输层、应用层的视频通信。在今年将会有更多这方面的研究,提供它的实用性和泛化能力。
最后,视频传输质量评价也是 2020 年重要的热点之一。由于现在网络视频的种类很多,包括实时视频、直播、短视频、VR 视频等,但传统上视频质量评价都是面向编码,但对传输的评价一直没有一个很好的框架。视频传输质量的监控和评价是业务的核心,包括由数据监测、质量评价到故障报警、修复的一套闭环的质量体系,将会是今年被持续关注的热点之一。
延展阅读:《专访张行功:2021,5G将会倒逼传输协议、算法做出更多改进》
本期架构师月刊精选了音视频领域的众多优秀文章,以期对该领域的开发者有所帮助。
目录
热点 |Hot
1049 亿元!微软拟收购全球最大语音识别公司 Nuance,后者是 Siri 幕后英雄
观点 | Opinion
实时互动场景下,音频的技术变迁与机遇
开源十年,WebRTC 的现状与未来
走向未来的实时生成技术
推荐文章 | Article
构建 WebRTC 音视频系统处理结构
手把手带你实现超实用实时音视频工具
2021 年带你漫游语音识别技术
WebRTC 基础知识详解
流媒体:依托于声网的连麦解决方案
本文转自 公众号:AI前线 ,作者InfoQ 中文站,点击阅读原文
文件名 | 大小 | 下载次数 | 操作 |
---|---|---|---|
202105月架构师月刊.pdf | 6.62MB | 2 | 下载 |