LiveVideoStack · 2023年12月26日 · 湖南

低延时视频技术的应用场景和挑战

编者按

无线网络对人们的生活产生了巨大的影响,而5G技术的引入将彻底改变我们与世界互联互通的方式。在5G时代,实现万物互联离不开低延时技术的应用。

LiveVideoStackCon 2023 深圳站邀请到秒点科技的CEO扶凯,为大家分享低延时技术在物联网、远程协作、云游戏等领域的创新应用,分析该技术所面临的技术挑战和市场壁垒,同时就如何打造一家具备全球竞争力、超越抖音等强势竞争对手的低延时视频技术公司提出相应建议。

文/扶凯

整理/LiveVideoStack

大家好,本次我将结合自身在业内二十余年的工作经验,就商业盈利提出一些建议。

虽然我国一些行业领域受疫情影响,当前正承受着经济下行的压力,但挑战也意味着机遇,服务器租赁、游戏等行业反而迎来了上升期,万事万物时刻在发生变化。

我一直认为,选择比努力更重要,个人的能力素质可以夯实自身的下限,而把握机会才能决定人生的上限。因此接下来我会通过对计算机行业的发展趋势以及低延时技术应用进行分析,帮助大家更好地选择自身的职业生涯走向。

本人于2008年自深圳前往北京,加入当时被称为CDN行业“黄埔军校”的蓝汛网络科技公司。2011年,加入土豆网负责CDN技术。2013年加入音悦台。2015年,回到深圳创立了云帆加速。2019年加入国网信息通信产业集团北京分公司。目前回归创业,成立了秒点科技。

可能与其他人的看法不同,我认为改变世界是一个综合的过程。在这之中,上图列举的四项技术将发挥关键作用。

第一是电池技术,它的发展将带来更高能量密度、快速充电、长寿命、无线充电等方面的突破和创新;第二是屏幕技术,我认为眼镜、幕墙乃至桌面等所有的玻璃平面都可以成为屏幕介质,它的发展有望彻底改变未来人类的交互方式;第三是5G技术,它是数字世界革命,实现万物互联的基石;最后是AI技术,人们可以通过它享受到更智能化的助手,帮助他们解决问题和提供各种服务。

从近三十年来这四大技术的发展历程可以看出,计算机、信息化行业的发展正迎来百年未见之大变局,不断迭代优化的技术成果充分提高了民众的生活体验。

3G时代,中国最具社交影响力的应用是微博。通过它可以迅速了解到世界最新的各种热点消息,它代表了一种全新的媒介形态,这令所有人趋之若鹜。彼时蓝汛科技号称掌握了全国80%的流量,但也未能预料到中国互联网如今的盛况。

4G时代,抖音、快手、映客、支付宝、微信、美团等等应用诞生,相信没有4G基础建设作为铺垫,它们不可能获得现在的发展。网络基础设施建设是后续技术迭代爆发的基石。

到了如今的5G时代,相信在电池、屏幕、5G通信和AI技术的加持下,我们终将迎来万物互联互动,新的物联网生态能够支持万物的标签化,从而实现互联,并且延迟足够低、建连时间短。不难看出,远程互动通信和低延时技术必将是其中的关键。

那么我们先来看看远程互动的现状。当前,远程交互技术已经能支持远程与本地画面超低延迟传输,实现近乎亲临现场的实时远程操作效果。

例如在电网检修时,技术人员可以远程指挥非专业者进行维护作业。或在医疗场景下,医生异地操作机器人远程手术、通过护士携带的摄像设备远程问诊等等。可以看到,低延时技术的应用已对传统工作方式造成了很大影响。

我认为远程交互的未来将从第三视角转变为第一视角,如远程操控机器人、无人机等等。当前腾讯已经和三一重工研发了各类支持远程操控的施工机械和卡车,相信未来还会有进一步的发展。

小鹏汽车此前也和我们协商,希望借助远程互动技术研发汽车的停车场无人泊车和远程接人功能,用户可以在到达停车场后下车,实现远程停车入位,这有效解决了停车场排队等待时间长的问题。2023年,小鹏X9车型已经官宣了支持该功能,这只是远程互动技术进化的一个缩影。

通过前瞻互联网行业的未来演进,我认为打造一个支持万物互联的平台非常重要,于是决定从最基础的控制和交互开始做起,最终推出了秒点远控软件,它支持以上几种功能。

接下来介绍一个具体的远程互动应用案例。抖音认识到本地生活服务和旅游行业的商业前景,推出了营销旅游线路和景点门票的主题直播间,虽然成交量不低但仍存在几点瓶颈。

一是用户留存观看时间短,由于内容比较单一,用户容易审美疲劳离开直播间,以抖音的算法难以带来更多流量推送,一定程度上限制了用户量;二是直播场景单一,可讲解的内容少;三是主播需要手持直播设备前往户外,直播状态容易受到气候影响。

针对以上问题,部分直播间已经采用了互动远程导播方案。由主播在室内远程操控无人设备拍摄户外画面并进行解说,与以前相比获得了更高的播放量和关注度。这是对低延时互动技术的典型应用。

对于以上场景,我们也结合自身考虑推出了一项远程互动导播产品,它把用户的手机打造为远程导播台,可将其他户外设备拍摄的多路画面汇集到用户手机,用户可以依据自身安排将收集到的画面作为直播间背景进行播放。这丰富了直播内容,有效增加了用户粘性。

在此基础上我们还开发了不同的用法,外景侧的手机负责现场走动并实时拍摄景区画面、声音,主播在室内负责解说,解说音频传输到外景侧手机合流后推流。目前来看,该产品面对主播用户获得了较好的商业收益。

我认为旅游业未来有望实现远程化,用户可以借助一个共同平台,通过远程机器人、无人机等设备实现在家沉浸式的远程旅游、无需规划攻略、舟车劳顿。

我们对该远程产品的规划分为三步:首先,依靠抖音、快手等第三方直播平台提供远程导播台软件,帮助主播拓展业务场景,提升直播竞争力;接着,待累计一定规模的主播与粉丝数量后,从旅游直播行业切入打造自有直播平台,将用户商业价值最大化;最后,通过建立一个开放而创新的合作生态系统,吸引商家,无人机、机器人厂家入驻平台,共同探索新的商业机会,实现双赢的局面。

作为一家技术研发型企业,我们认为实现游戏、远程操控等远程互动应用的前提是低延时和高清。低延时是一项重要的技术挑战,我们针对它进行了多方面的优化。

例如:把原有的延迟较高的GDI采集方式改为DXGI,4k分辨率下的延时降低到了4毫秒;全面采用ZeroLatency模式的硬解编码,并且去掉B帧;鉴于对音频视频同步的要求不高,关闭3A算法;缩小Buffer等等。最终经过测试,无视网络条件的影响,传输延迟可达到50~80ms,在一般网络环境下,延迟约为120ms。

另一个问题是保证质量和稳定性。由于我们的人力有限,因此在保证质量上,我们选择采用新型编码器。

而稳定性方面有一个较大的问题是网络流量容易发生波动,这尤其体现在我们的云电脑场景,流量不稳定容易导致拥塞控制算法误判,进而引发网络中断。针对稳定性问题,我们设计了一套名为加权移动平均的流量平滑算法,上图展示了该算法使用前后的流量波动对比。

最后,我认为在未来的5G时代,互动非常重要。未来必将诞生一个支持万物互联的沉浸式远程互动平台。

我今天的分享就到这里,谢谢大家!

推荐阅读
关注数
4162
内容数
363
分享音视频相关技术干货、产品研究与行业趋势
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息