2020的双11狂潮已然提早,年度氪金剁手大会已吹响号角。
比起往年,今年格外不同,天猫双11早在10月21日便揭起预售大幕,8亿人蹲守淘宝直播,仅当日的李佳琦直播间,观看人次就突破了1.5亿,直至10月31日,连续长达10天的明星直播间和品牌商家总裁连麦均是亮点。无疑,淘宝直播在双11期间发挥巨大作用,而电商直播已俨然成为标配输出。
与此同时,跨境电商也参与到了直播带货中来。被称为“国际版淘宝”的阿里巴巴跨境电商平台“速卖通”,面向海外买家,其平台商家也非常希望能更好地利用直播沟通把商品卖到海外。但直播时的语言成为一大问题,外国人听不懂我们卖什么,我们不明白外国人想要什么,这中间的gap很难在直播场景下融通。而实时语音翻译字幕,就打通了商家国外直播带货的任督二脉。
这项技术是由阿里云视频云与达摩院共同研发而成,以实时字幕技术和AI能力实现直播电商场景下的实时“语言”翻译,以214种语言的实时翻译字幕,大规模应用于此次双11,掀起全球性的双11热潮。
阿里云视频云的实时字幕技术,要做到字幕与主播的语音、画面同步输出,才能满足直播时的翻译和理解需求。那么直播实时翻译字幕能否真的做到“实时”呢?答案是肯定的。说起实时,肯定要谈论“延迟”的概念,一般延迟是指推流端到播放端的全链路端到端延迟时间。当下互联网直播关于直播延迟的大概定义范畴如下:1) 延迟直播:20s以上,一般是广电行业为了监播管控的需要,而做的故意延迟。2) 准实时直播:10s-20s,一般使用HLS/DASH等切片流式直播。3) 实时直播:5s-10s,一般使用RTMP/http-flv流式直播。4) 低延迟直播:2s-3s,一般使用srt或者其它UDP等传输协议的流式直播。5) 超低延迟直播:1s-2s,比如阿里云视频云的提出的RTS直播,大概在1s左右的延迟。直播的延迟和链路的传输协议有很大关系,当然也和链路每个环节的缓冲有关系,我们先看看端到端的链路,看看哪些环节可能产生延迟:
从上面的链路延迟图可以看到,理论上最小延迟可以在500ms。如果减少云厂商内部链路,不走中心,比如上行和下行都是一个节点区域(边缘节点),理论上可以在200ms左右。而直播时AI翻译处理一般部署在中心,或者边缘节点,能否实时,就要看AI翻译引入的延迟链路了:
实际上就当前AI翻译模块是能够实时的,但是由于每个人说话的断句(停顿)以及语音的不标准以及重复冗余字符(比如额、嗯等等)等等各种因素,导致语音识别需要一定语音量缓冲和上下文环境理解,才能够识别字、词、短句正确。而语音翻译需要根据识别后的文字进行翻译,一旦文字识别错误,(特别是同音不同字也不同义的)进行翻译后,会错的很离谱,当然翻译本身也是非常复杂的。所以识别模型、文字处理模型、翻译模型都需要针对特定场景进行针对性训练。但是模型本身的计算不会引入多少延迟的,而另外两个延迟的引入是在字、音、画同步以及二次编码上,同时为了兼容某些语速较快的人,确保字符能够显示一定的时长,需要加些延迟。可以依据整个链路延迟来看,AI翻译直播的端到端理论延迟可以在1s左右,完全满足直播时翻译字幕对“实时”的需求。回顾全球速卖通的实时语音翻译,是由阿里云视频云提供全链路解决方案,进行客户直播流的接入、直播流的语音分离、语音识别获取字幕、然后字音画同步、合成展示,最后分发。从而通过速卖通的跨境直播,让全球用户越过语言障碍,深度参与直播互动。
不仅是电商直播场景,包括游戏直播也可以加入实时字幕和翻译,如正在火热进行的2020英雄联盟S10全球总决赛,国内直播平台斗鱼,就采用了阿里云视频云云导播台的成熟的实时语音字幕方案进行直播,赛场解说语音通过AI实时识别转化为字幕,输出导播到直播画面上,全新提升直播游戏的观感体验。阿里云视频云的实时字幕技术,早已完成产品化,并整合到了云导播台中。欲了解,可前往阿里云官网,搜索“视频直播”、“云导播台”。
阿里云视频云将对更多场景、更多维度进行技术探索,推动新内容与新交互的未来,给大家带来更多的视频云体验。
阿里云视频云技术公众号分享视频云行业和技术趋势,打造“新内容”、“新交互”。