【嘉德点评】百度发明的AI智能解说,可根据历史比赛的人工文字解说内容及结构化数据生成解说模型,这样,后续在对比赛进行直播的过程中,针对每次获取到的结构化数据,可根据解说模型自动地生成对应的文字解说内容。
集微网消息,2016年里约奥运会澳大利亚男篮与立陶宛男篮的比赛中,百度旗下的人工智能“度秘”曾与知名篮球解说员杨毅共同进行了一场人机联合解说。在比赛过程中,度秘会用图文、语音的方式来为用户解读比赛进程,提供精选球迷评论、分享赛事图片等,用户可以与度秘互动交流。
人工智能(AI)已经成为了全球热门的一个话题,AI正在带来新一轮的科技革命和产业变革。而伴随着AI技术的发展,医疗、教育、交通、家居等诸多我们日常生活的场景中都提出了AI+的理念,有的也已落地试行。
而在体育比赛直播中,通过对比赛进行解说,可以帮助观众更好的了解比赛,目前,通常采用人工文字解说或人工语音解说的方式对比赛进行解说。
但是,在实际应用中人工文字解说会存在一定的问题,比如:人工文字解说需要一定的时间来整理信息,因此在直播时会有不同程度的延时,另外,会很容易出现错误,如在数据的准确性以及打字等问题上均可能出现错误,从而降低了解说内容的准确性。
为此,百度在17年6月7日申请了一项名为“基于人工智能的比赛解说内容生成方法、装置及存储介质”的发明专利(申请号:201710423242.5),申请人为北京百度网讯科技有限公司。
根据目前公开的专利资料,让我们一起来看看这项AI智能解说技术吧。
如上图为比赛解说内容生成方法的流程图,首先,获取历史比赛的人工文字解说内容及结构化数据,其次根据获取到的信息生成解说模型,最后在对比赛进行直播的过程中,针对每次获取到的结构化数据,分别根据解说模型确定出对应的文字解说内容。
可以看出,这个流程中主要包括两个过程,即线下训练过程和线上实时解说过程。线下训练过程:在比赛中,会有实时的比赛数据生成,这些数据通常都是存储在数据库中的结构化数据,一条结构化数据对应一个事件,例如篮球比赛中,两分投篮就就是一个事件。
为了得到解说模型,可首先获取训练数据,比如获取多场历史比赛的人工文字解说内容及结构化数据,以NBA解说为例,获取多场历史NBA比赛的人工文字解说内容及结构化数据,如获取2016年NBA总决赛第一场的全场的人工文字解说内容及结构化数据等。
针对获取到的历史比赛的人工文字解说内容及结构化数据,可根据结构化数据中的字段值以及人工文字解说内容中抽取出的字段值等,对齐人工文字解说内容与结构化数据,从而得到一系列由人工文字解说内容与对应的结构化数据组成的第一数据对。
在得到各第一数据对之后,即可根据各第一数据对生成解说模型,具体包括两个解说模型,即第一解说模型和第二解说模型,第一解说模型可为解说模式模型,第二解说模型可为序列生成模型。
如上图所示为得到解说模式模型的方法流程图,首先对各第一数据对进行预处理,例如进行数据清洗、去除数据中的乱码、多余的标点、表情符号等。接着根据领域知识库,对该第一数据对中的人工文字解说内容进行槽位抽取和泛化,比如将领域知识库中包括的球员、球队等作为槽位值,进行槽位的抽取。
其次,从泛化结果中去除多余的修饰成分,生成解说模板,对于泛化结果,可抽取出句子的主干,去除多余的修饰成分,从而生成解说模板。针对该第一数据对,结合领域知识库进行推理和特征抽取,根据抽取出的特征生成特征向量,每个特征对应特征向量中的一维。
这些推理可包括上下文推理以及属性推理等,通过推理,可实现信息的扩展,丰富信息内容,例如当前事件特征、上下文特征以及动态特征。
最后,建立特征向量与解说模板之间的对应关系,得到一个第二数据对。再将得到的各第二数据对作为解说模式模型。
我们再来看看第二解说模型中基于编码-解码框架所得到的序列生成模型。
如上图所示为encoder-decoder框架的示意图,首先对输入序列X1X2…XT进行encode,再基于encode结果进行decode,生成输出序列Y1Y2…YT,由于在该专利中输入的是结构化数据,输出的是文本序列,因此需要将结构化数据构建成序列化输入,例如可采用结构化数据直译的方式得到序列化输入。
最后该专利中还提供了一个较为真实的篮球解说界面的示意图。
如上图所示,直播的是美国对委内瑞拉的比赛,用户可以选择“只看安东尼”或“只看杜兰特”等。
以上就是百度发明的AI智能解说,可根据历史比赛的人工文字解说内容及结构化数据生成解说模型,这样,后续在对比赛进行直播的过程中,针对每次获取到的结构化数据,可根据解说模型自动地生成对应的文字解说内容。从而避免了现有技术中的错误,提升了解说内容的准确性,另外由于无需专业的解说人员,整个系统的成本也非常低!
关于嘉德
深圳市嘉德知识产权服务有限公司由曾在华为等世界500强企业工作多年的知识产权专家、律师、专利代理人组成,熟悉中欧美知识产权法律理论和实务,在全球知识产权申请、布局、诉讼、许可谈判、交易、运营、标准专利协同创造、专利池建设、展会知识产权、跨境电商知识产权、知识产权海关保护等方面拥有丰富的经验。
(校对/holly)