AI学习者 · 3 天前

攻城狮手记 | 既高清又低码?腾讯明眸帮你两者兼得

随着近几年视频行业的井喷,短视频、社交媒体、电商带货、视频会议等泛媒体类应用大规模增长,人们对高画质、低延时的需求愈发强烈。

而腾讯明眸正是聚焦于“极速高清”和“画质重生”两大功能,利用腾讯云领先的编解码和媒体处理技术与AI技术融合打造的音视频技术品牌。在各类媒体业务中,腾讯明眸都能够为用户提供画质更好,码率更低的媒体处理服务

下面我们就一同来了解一下这个让你能够“鱼与熊掌兼得”的黑科技以及它背后的工程师团队吧!

13301a5d8ab2eb39fd756875a7898a30.png

226bc73a89f9473869f5584801b41623.png

17年,音视频应用平台开始将关注点转向带宽成本、观看体验。我们也在这个时候开始研发极速高清的技术,希望将长期积累下来的音视频能力运用到音视频媒体APP,特别是直播实时媒体处理场景上。

但想把这些能力真正运用到直播上,却并不容易。一方面,为了更好的编码效果,在视频解码后,需要使用画质增强/修复技术对视频源进行处理。但不同视频源的质量参差不齐,不同场景、客户对画面的需求也千差万别,导致适用的技术大不相同。比如高清视频源,如果进行去噪处理,就会导致画面细节受损。同时,各项能力还要根据画面质量、场景、需求等配置相应参数。

另一方面,人眼对不同场景的感受不同,对应的编码策略也要变化。比如一些游戏画面有很多草地,这时通过编码参数控制,减少纹理复杂区域的码率,虽然会在该区域产生振铃效应和毛刺,但是由于复杂纹理的遮挡效应,人眼并不能感知到,等于在画质不变的情况下降低了码率。

只针对一个视频做处理,可以慢慢地调参数。但面对云上海量业务,尤其是直播,我们必须要为这些视频自动匹配最优的方案。

为了解决这个问题,明眸团队调整了整体处理的pipeline,引入AI能力,先进行场景分析、毛刺检测、噪声检测、交错检测、质检以及JND等预分析流程,分析视频源的画面质量,然后针对不同的场景和画面质量情况,使用对应的画质增强/修复技术。修复后,明眸还会对画面进行二次分析,用来辅助后续的视频编码流程。

具体到实际应用中,腾讯明眸通过深度学习,能够识别游戏、体育、秀场、户外、动漫、影视等在内的十几个主流大类及几十个小类的场景,为视频流自动匹配对应场景模型。场景识别后,明眸将结合视频源码率、帧率、分辨率、纹理和运动变化幅度等信息,进一步做锐化、软模糊、反交错、去块、降噪、色阶补偿、降插帧、暗景增强、去抖动等前置处理。然后再对画面进行二次分析,分析视频的ROI/JND、内容自适应编码等信息,并以此来进行更符合人眼主观的编码流程。客户只要开启极速高清功能,就能在同画质下降低视频码率30%-50%,保证用户观看体验的同时,大幅节约成本。

bbb390f5408597f972f8278a5d72a60f.png

745b9ec33a5342583967c50664d520e4.png

在通过智能场景识别、预分析等AI能力解决了云上海量业务带来的泛化挑战后,追求极致的明眸团队又将目光锁定在编码器内部的优化攻坚。

在介绍优化之前,先简单的解释一下编码标准和编码器实现间的关系。我们常说的H.264/H.265/AV1/H.266这些其实是一种编码标准,具体来说就是一种视频压缩编码算法。而将这个算法实现,使之能够真正应用的则是编码器。以H.264来说,就有x264、Openh264等多种开源编码器。标准和对应的编码器共同实现了视频的编解码。

从H.264编码标准到H.265再到AV1,去年H.266标准也已制定完成。但目前H.264依旧是主流。一个标准从诞生到大规模应用,是一个异常漫长的优化过程。

如果用0-100来划分的话,一个标准的制定完成就是0-1的突破,而后面的1-100则是不断调优的过程。新的标准固然先进,但没有长期的实践优化,编码器很难将标准的潜力全部发挥出来。在H.266刚推出时,使用H.266编码器的编码速度甚至要比上一代H.265编码器慢1000倍。即使是03年制定的H.264标准,当前开源编码器也没有完全发挥出它的极限,其内核还有很多可以深入优化的点。

H.264已经是十几年前的标准了,各大厂商都研究的很深入。在这种情况下,还想要领先别人,就得靠各种细节上的不断深挖,优化!优化!再优化!

这里,明眸的工程师为我们分享了两个算法调优案例。

第一个案例与去噪有关。在正常的媒体处理流程中,去噪这样的前处理能力被放在编码器外进行。但在实际应用中,团队发现,去噪中非常耗费资源的前后帧搜寻与编码器中的一个流程非常相似。去噪处理中,需要通过搜寻前后帧,寻找没有噪声的相似画面来辅助。编码过程也需要在前后帧中搜寻。发现这个重复点后,明眸团队就将去噪的过程融合到了编码器中,复用编码器前后搜寻的结果,使去噪编码过程由两步变为一步,速度提升了近一倍

第二个案例则关于B帧。B帧的宏块有两个mv来进行参考,能够提升压缩效果,但也会增加编码延迟。所以在低延迟直播/RTC等场景中,通常会关闭B帧,损失一些效果来确保低延迟。那有办法既保证低延迟,又利用B帧的特性提升压缩率吗?面对这道“既要又要”的难题,明眸团队在编码内核中增加了GPB帧的支持。GPB帧在标准上标注为B帧,宏块可以有两个mv,但两个mv都只做前向参考,不进行后向参考。因此既能够利用多个mv的特性提升压缩率,又不会引入额外的延迟。

正是像这样不断深入调优,腾讯内部开源协同的O264编码器才能在各项指标上相比开源编码器获得30% 以上的增益提升,V265相较开源的x265更是可以达到40%的编码增益。在2021年的MSU云端视频转码大赛中,O264/V265编码器一举拿下H.264和H.265的视频转码质量、视频转码质量/转码速度、视频转码质量/转码价格、per-title场景自适应转码质量等多项指标全部第一的出色成绩。除了O264和V265之外,在H.266/VVC等下一代编码器上,腾讯也拥有上百项的专利

5b44107c3d4b9a83f41231cfb0bd3a5b.png

65f9d5736be893bc99a0cee93378bbcd.png
ff5ea4ce6dab7603fd7e6e75a9dd973b.png

8b3328213e6277f72f9f36d518cfcb58.png

153363b768bdaf8c916d268d04cf5d18.png

049951a4dc2226fa99f3bf48e20fb3fa.png

除了深入优化编码器内核外,明眸团队也一直在融入新的技术能力来应对不断涌现的媒体处理新场景、新需求。

在画质修复和增强的场景,腾讯明眸积极探索前沿的深度学习算法。通过数据驱动的自动建模和基于AI的媒体处理,如采用视频质量估计和时空域联合特征生成复原图,消除片源中的噪点、压缩伪影、去除模糊和增强细节,提高色彩质量,帮助老片翻新,实现画质重生。

针对秀场直播、电商直播场景,腾讯明眸融入ROI(region of interest)处理的能力,提升编码效果。这些场景中,用户关注点集中在主播面部,所以明眸结合AI技术识别出画面中的人脸区域,并在编码时分配更高的码率,从而获得更佳的面部表现。

在播放端,腾讯明眸也支持了LCEVC能力,帮助平台缓解下行压力,让观众能够更顺畅的收看4K直播。原先的超分是在服务端完成的,视频流超分后画质、分辨率明显提升,但占用的带宽也大幅上升。通过LCEVC编码器,服务端只需AI预分析,并将这些分析数据和视频源一同推送至终端。获取数据后,用户在终端完成超分处理,不必占用更多的带宽便能获得高清的4K观看体验。

除此之外,腾讯明眸也在对很多新的、复杂度较高的编码工具做进一步的加速与优化,让它们能够被应用在实时的直播场景中。同时,腾讯明眸也率先支持了AV1、H.266等新一代编解码标准

如果您有视频需求,不妨试下腾讯明眸!

无论您想与云直播、云点播配合使用,还是自动处理上传到云存储的文件;

无论您想公有云按量计费,还是私有化部署到本地机房;

无论您想控制台可视化操作,还是API后台调用;

作为音视频基础能力,腾讯明眸提供了灵活多样的使用方式,总有一款适合你。

END

作者:腾讯云音视频
微信公众号:腾讯云音视频
image.png
原文链接:https://mp.weixin.qq.com/s/XX6teEBOSvWAeUypr7A6hQ
1 阅读 104
推荐阅读
0 条评论
关注数
31
文章数
263
嵌入式,CV,NLP,数字芯片设计学习中~
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
Arm中国学堂公众号
关注Arm中国学堂
实时获取免费 Arm 教学资源信息
Arm中国招聘公众号
关注Arm中国招聘
实时获取 Arm 中国职位信息