阿里云智能视频云 资深技术专家王豪(天野)
2010 年毕业于华中科技大学,此后投身多媒体方向的技术开发,从流媒体、视频编码、视频处理到质量评价均有涉及,并从零开始打造了一款广泛商用的视频编码器及其前后处理系统。加入阿里云视频云后,负责视频编码与增强算法,团队聚焦在视频编码、视频前后处理以及质量评价方向,并重点研发演进窄带高清技术。
此次作为 LiveVideoStackCon 2021 的讲师,王豪与我们分享其对编码优化的思考与发现。
Q1.你最近关注的技术趋势?有哪些是你认为比较有发展前景的?
我个人的技术栈一直聚焦在视频编码和处理方向,也一直在思考,在这个方向上,我们短期和长期的布局是什么,中短期布局如何保证竞争力,以及长期布局如何避免系统性踏空。
利用 AI 辅助视频压缩是业界非常关注的方向,它有这几种思路:
- 私有编码模式:端到端的视频压缩,基于深度学习的模块级视频压缩优化;
- 基于实时图像生成的视频压缩,因为 GAN 生成人脸和人体比较成熟,但在其他场景成熟度不够,因此这个方向在会议场景比较火,我们也在持续关注和尝试。
- 基于标准编解码器的视频编码与处理联合优化,包括两部分:利用视频处理提升编码压缩率和利用视频编码提升视频处理效果。
这其中,我最关注 “基于标准编解码器的视频编码与处理联合优化”。针对视频后处理,还有如何进行编码决策优化(包括模式和码率),同时扩展到分层编码,这个方向是整个端云联合优化的核心,对工业界应用有很大价值,希望到时候和大家一起探讨。
Q2.你曾经参与上线的音视频业务,印象深刻的一个是?
印象最深的肯定是当下正在做的业务。我们团队正在进行窄带高清第二代的算法优化升级,在如何持续提画质和降码率的过程中走了很多弯路。
目前,在窄带高清第二代优化中,我们从人眼视觉出发,将客观最优转向主观最优,同时利用 AI 进行视频增强,再加上视频编码处理联合优化,使得码率节省的同时,主观质量也明显得到优化,这项技术更适合高热内容场景的处理,能够为客户带来更大的商业价值。
什么是窄带高清 ?
窄带高清代表的是一种成本与体验相调和的视频服务理念,阿里云早在 2015 年就提出了 “窄带高清” 的技术概念,其是以人眼主观感受最优为基准的视频编码技术。窄带高清在业界属于内容自适应编码范畴(contentadaptive encoding), 核心目标为:追求带宽,质量,成本的最优平衡。
窄带高清的技术价值?
直播平台调研数据显示,只有 16% 的用户能够看到超清的视频,54% 的用户能够看到高清的视频,30% 的用户看不到高清视频。窄带高清以人眼主观感受最优为基准的视频编码,能够把超清码率往高清码率更靠近一些,让更多的人可以看到超清视频。
- 窄带高清 1.0: 通过视频前处理提升视频质量,实现码率节省。
- 窄带高清 2.0: 引入 AI 进行细节 / 色彩自适应修复、增强,从人眼视觉模型出发,将视频的优化目标从经典的 “保真度最高” 调整为 “主观体验最好”,在提供更加清晰的观看体验同时节省带宽。
Q3.你此前接受 LiveVideoStack 的采访时,有讨论过视频 Codec 的未来格局:
2019年采访:《王豪:AI和编码联合优化为视频压缩提供了更多可能》
“先说结论:视频 codec 的未来格局必然是群雄争霸的局面,并且在中美贸易战的影响可能出现新的变数。由于 HEVC 专利池的各种问题,H.264 一家独大的优势不复存在,目前 AV1 在国外基于谷歌生态的优势,已经在流媒体领域站住了脚跟,形成三强争霸的局面。对于下一代编码器而言,AV2 预计距发布还有一定的时间,这里先不评价,已经发布的 AVS3 基于当前贸易战的形式下可能有新的机会,而对于 EVC 和 VVC,专利策略将是市场是否接受的关键因素,目前还不好说。”
Q:在 VVC 定稿、神经视频编码进一步突破、AV1 不断普及的一年后,你对此有哪些的看法与思考呢?
现在依然是群雄争霸的局面,主流也依然是 H.264,VP9 因为压缩率没有真正和 H.264 拉开差距,虽然生态也很全面,但使用不多。H.265 的硬件解码在消费电子和智能电视上被广泛支持,唯一的软肋是浏览器。目前,在流媒体领域,H.265 依然是除 264 外最合适的 codec。
去年,AV1,AVS3 都找到了自己的优势场景。AV1 凭借谷歌在 WebRTC、浏览器以及安卓的生态里被广泛推广,因此在浏览器和 WebRTC 上的应用都有优势,但硬件编码器的支持还是不足,尤其在消费电子领域,目前还没有看到对 AV1 的相关支持。此外,Sisvel 专利池的问题也还没看到官方回应。而 AVS3 在国内电视广播行业成了超高清的事实标准,央视也用 AVS3 进行了 8K 直播。
VVC 从技术上来看是最先进的视频压缩协议,最合适在业务闭环场景下应用,但目前其专利费结构最早要到今年年中才能获知,个人认为专利问题很难解决,同时硬件解码支持不明朗,需要持续观察。
Q4.除去已被多次讨论的在线教育、语音社交等领域,在你看来,视频云行业还有哪些领域将迎来井喷式发展?
目前视频的生产、制作和处理远远还不成熟,视频制作依然存在门槛,视频处理的带宽也依然很大。如何满足整个行业对视频化的需求、如何帮助社会和行业降低视频制作的门槛、降低视频处理的成本,使视频能够普惠化,这些都是亟待解决的问题,而解决该矛盾的核心就是视频生成和处理领域的技术,因此我们非常看好内容生产与处理领域。
阿里云视频云希望能推动这个时代将大部分内容的表达方式和信息的传播媒介从图文进化为视频,这个方向也是我们的发力点。当然,这中间还有很多关键技术需要持续提升和突破,例如实时渲染技术,AI 在生产制作领域的进化等。
Q5.视频云行业的蛋糕会在未来持续变大吗?阿里云视频云为挣得“更大的蛋糕”,在视频编码等相关领域做了哪些技术储备?
目前视频已经广泛地应用于各行各业,视频也开始承载越来越多的社会信息,很多交互都从线下转到线上,随着 5G 时代的到来,相信视频领域将会不可避免地迎来更猛烈的爆发。为帮助各行各业更好地承载信息,视频技术的演进方向也会越来越云化、数字化、普惠化,视频云行业会持续高速增长。
我们一直致力于如何将视频技术普惠化,普惠化的核心是成本和体验,基于这个思路,在视频编码和处理方向,最核心的就是如何帮客户提升质量,同时降低带宽成本和服务器成本。
我们所有技术布局都围绕这个目的,总的来讲做了如下方向的布局和持续突破:
- 编码内核:软硬一体,编码器持续降成本;
- AI 辅助压缩,场景自适应编码;
- 下一代编码器优化,持续打造编码竞争力。
Q:你的职业发展伴随着视频编解码技术的不断迭代升级,能和我们分享在编解码技术上的学习心得以及自己的职业理想吗?
感觉自己比较幸运,个人发展正好遇到了多媒体技术爆发性发展的时间段,尤其是视频技术。看到越多越多的视频压缩和处理技术不断涌现出来,是一件非常爽的事情。
关于个人职业发展,我觉得最重要的还是兴趣驱使,这对于行业入门以及后续的个人提升都非常重要。尤其是入门期间,需要真正由兴趣驱动,才能在繁忙的工作中强行抽出时间去真正熟悉一项技术。
其次,有关个人技术的升级,我觉得这就是一个不断地自我否定和自我肯定的过程:自我否定能帮助我们找到提升自己的方向,自我肯定则能帮助我们在困难的时候继续走下去。理想的话,目前是希望能做出真正能改变世界、影响世界的技术和算法,能改变人们的沟通和交互方式;从技术上来说的话,希望和同行们一起 Make Video Codec Great Again!
Q6.本次参与 LiveVideoStackCon 2021 上海站,你将带来有关阿里云视频云窄带高清的优化思路,可以剧透一些演讲内容吗?
主要会分享:
- 我们在窄带高清方面的思考,窄带高清归根结底是一个压缩问题,随着深度学习的发展,视频处理,视频生成辅助压缩成为学术界和工业界的研究重点,在这个方向我们的观点是什么?窄带高清的终极目标是什么?
- 为达到这个终极目的,我们对窄带高清技术的短期思路和长期思路分别是什么?为什么对窄带来讲,评价的唯一方式是主观?
- 基于该思路,我们在短期进展及对未来的布局和思考。
Q7.对于这次 LiveVideoStackCon 2021 上海站的所有演讲阵容中,你对哪方面的分享内容最感兴趣?
从个人来讲,视频编码和处理方向的技术我都很感兴趣,比如如何利用 AI 辅助传统视频编码提升压缩率、传输哪些 bit 对视频后处理质量提升最大、编解码联动时编码器的决策需要做哪些优化、如何利用 bit 帮助视频处理降低复杂度,以及编码器前处理如何保证编码后质量最优等问题。
除技术外,对技术商业策略方向也非常感兴趣。目前视频技术已经慢慢变成了一个社会、行业的基础能力,在这个背景下,视频如何更好地服务于各行各业,对技术、产业、商业提出的挑战是什么?跨在技术和商业落地之间的鸿沟是什么?以及如何跨越这些鸿沟等,都是很值得讨论的话题。
Q:如果要为想从事视频编解码优化工作的同学推荐一本书 / 一门课,你会推荐什么?
编码优化是一个 “理论 + 标准 + 工程” 的流程,需要不断地去迭代、循环,带着理论的疑问,在标准中思考原因,在工程优化中发现问题,再从理论中寻找答案。
理论方面,视频编码属于信源编码(Source Coding)方向,一般应用都为有损压缩,因此,想要从事相关工作的同学在信源编码和率失真优化(Rate Distoriton Optimization) 方面都需要积累基础的理论知识。
标准方面,中文书推荐杨付正老师的《新一代高效视频编码 H.265/HEVC:原理、标准与实现》,英文书推荐 High Efficiency Video Coding.Algorithms and Architectures,可以看一个标准入门,不用贪多。
工程方面,建议大家可以拿一个开源编码器入手,比如 x265,还可以和 HM 对比着看,思考两者的差异,包括数据结构的设计、模块架构、码控等等,这样会更有感觉。
LiveVideoStackCon 2021 上海站时间:2021 年 4 月 16 日 - 4 月 17 日
「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实践技术文章,在这里与音视频领域一流工程师交流切磋。