集微网 · 2022年04月02日

【专利解密】3D手语数智人“聆语”背后的秘密 腾讯在线虚拟解说方案

【嘉勤点评】腾讯发明的可用于比赛直播的在线虚拟解说方案,能够实现实时的在线解说,对于当前正在进行中的视频(在线游戏或体育赛事),可以达到实时同步地输出解说内容的效果,甚至可以通过虚拟解说主持人播报解说语音,并搭配相应的表情、动作等拟人效果,带给观众良好的观看体验。

集微网消息,随着人工智能各方向不同能力的发展,大众已渐渐不满足于在实际场景中只应用某个AI能力,因此对于AI综合能力应用场景的探索也在不断推进。

在2022年冬奥会上,一位由虚拟人物构成的手语解说人物出现在观众的视野中,据悉,该手语解说服务由腾讯提供,该虚拟人物为腾讯打造的3D手语数智人“聆语”,而这项技术则正是基于AI的新闻播报场景的虚拟主持人技术。

在传统的虚拟主持人技术中,通常只适用于离线场景,虚拟主持人的播报内容、语音效果、动作效果在播报前已经固定下来,不能适用于例如冬奥会这种体育竞赛或者游戏直播等实时在线解说、播报主持的场景。

为此,腾讯在2020年2月7日申请了一项名为“在线虚拟解说方法、设备和介质”的发明专利(申请号:202010082914.2),申请人为腾讯科技(深圳)有限公司。

根据该专利目前公开的相关资料,让我们一起来看看这项技术方案吧。
image

如上图,为该专利中发明的在线虚拟解说方法的过程的流程图,首先,对于正在播放的视频帧图像,获取到可用于描述帧图像内的元素基础信息的属性数据,例如对于一段游戏视频而言,包含有玩家操控的角色、非玩家角色元素的移动、技能、动作等行为数据。或者通过间接的方式来获取属性数据,例如将当前帧和先前帧游戏图像中的血量进行对比,以确定“游戏角色的血量变化量”这样的间接属性数据。

其次,基于得到的属性数据,提取用于表示帧图像中与解说相关的综合信息的特征数据,并构建相应的解说特征库,该库的构建过程如下图所示:

image

首先,需要基于作为标准的参考解说视频,提取参考解说文本,该解说词可由音频-本文转换技术对解说音频处理而得,并转换为参考解说文本,例如,对于目前火热的王者荣耀游戏而言,其可表达为“这沈梦溪丢了一个混合炸弹伤害真心高,佩服佩服”。

其次,基于参考解说文本来确定参考解说事件,对于上述文本而言,可以确定参考解说事件为“沈梦溪丢炸弹”和“炸弹伤害高”,再进一步确定用于表征与解说相关的综合信息的参考特征数据,例如得到“游戏角色的名字”、“游戏角色的动作”和“对其他游戏角色的伤害输出”的参考特征数据。

最后,基于参考特征数据,建立解说特征库,并在自动标注之后,再通过人工检查的方式进行纠错和补充,从而进一步扩充和完善解说特征库。通过这样的方式,不断地更换新的参考解说视频,逐渐使得人工纠错和补充的部分将越来越少。

image

如上图,为通过内容生成数据流图的示意性方案,首先,基于预先建立的解说文本库,确定与所选择的解说事件对应的解说模板,并基于与解说事件对应的属性数据,替换解说模板中的模板字段并生成所述解说文本,从而基于解说文本生成对应的语音和表情动作。
image

最后,如上图,为一种在线游戏虚拟解说的应用场景下输出的解说内容的示意图,可以看到,解说内容主要包括字幕形式的解说文本1001,同时也可以包括用于播报该解说文本的音频数据。

以上就是腾讯发明的可用于比赛直播的在线虚拟解说方案,该方案能够实现实时的在线解说,对于当前正在进行中的视频(在线游戏或体育赛事),可以达到实时同步地输出解说内容的效果,甚至可以通过虚拟解说主持人播报解说语音,并搭配相应的表情、动作等拟人效果,带给观众良好的观看体验。

推荐阅读
关注数
12775
内容数
1029
从专利出发,浅析一切关于柔性屏、折叠屏、10倍光学变焦技术等有趣的前沿技术
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息