【专利解密】科大讯飞助力语音识别技术变革

【嘉勤点评】科大讯飞的语音识别纠错专利，通过充分利用额外的相关文本信息，对识别文本进行错误定位和纠正以得到纠错结果，提高了错误定位和错误纠正的准确性。

集微网消息，近日，以“记录创造者”为主题的科大讯飞智能办公本X2新品发布会在合肥举行。X2在效率提升方面做出了更加显著的升级，也支持了强大的讯飞输入法，智能办公本的精准的识别能力少不了科大讯飞背后的语音识别及纠错技术。

随着人工智能相关技术的日益成熟，语音识别系统被广泛应用于会议、演讲、采访以及授课等场合。但是，目前的语音识别技术无法达到完全正确的识别效果。因此，需要对语音识别结果进行纠错，以提高语音识别结果的准确性。然而，目前的语音识别纠错方法能够利用的语义信息相对受限，导致纠错模型难以进行准确的错误判定和错误纠正，纠错效果欠佳。

为此，科大讯飞于2020年10月20日申请了一项名为“语音识别纠错方法、装置、电子设备和存储介质”的发明专利（申请号:202011126205.6）,申请人为科大讯飞股份有限公司。

图1 语音识别纠错方法流程示意图

图1为本发明提出的语音识别纠错方法流程示意图。首先要确定待纠错的语音数据的识别文本（110），然后将识别文本，以及语音数据的用户关联文本和/或语音数据的历史语音数据的历史识别文本输入至语音识别纠错模型，得到语音识别纠错模型输出的纠错结果（120）。

语音识别纠错模型是基于样本语音数据的样本识别文本及其样本纠错结果，以及样本用户关联文本和/或样本语音数据的历史语音数据的样本历史识别文本训练得到的。此处，识别文本可以为语音识别模型对用户的语音数据进行语音识别处理后输出的结果。由于语音识别模型存在出错的可能性，因此需要对该识别文本进行纠错。

在语音识别场景下，连续语音片段中的任意一段语音数据均与其之前的语音数据存在较强的语义关联性。故当前语音数据的历史语音数据识别文本所提供的语义信息可以用于辅助确定当前语音数据的识别文本的语义信息，从而消除同音词或近音词等带来的歧义性，以正确定位和纠正错误。并且，历史识别文本还可以提供与当前语境更为契合的语言表达方式，也有助于正确判断该识别文本中是否存在错误并准确纠正其中的错误。

此外，考虑到用户在相近时间段内所产生的不同行为之间通常具备一定关联性，因此在用户利用智能终端输入语音数据的过程中，或前后相近时间段内，该用户使用智能终端上的不同应用所产生的文本，即当前语音数据的用户关联文本，与语音数据的识别文本在主题或领域上也存在一定关联。因此利用用户关联文本的语义信息，同样可以辅助确定语音数据的语义信息，以正确区分各个同音词或近音词，且用户关联文本也可以提供与当前语境更契合的语言表达方式，还可以将用户关联文本一同输入至语音识别纠错模型进行语音识别纠错。

简而言之，科大讯飞的语音识别纠错专利，通过充分利用额外的相关文本信息，对识别文本进行错误定位和纠正以得到纠错结果，提高了错误定位和错误纠正的准确性。

科大讯飞是亚太地区知名的智能语音和人工智能上市企业，其核心技术研究一直保持着国际前沿技术水平，一直积极推动人工智能产品研发和行业应用落地，致力于让机器“能听会说，能理解会思考”，用人工智能建设美好世界。

关于嘉勤

深圳市嘉勤知识产权代理有限公司由曾在华为等世界500强企业工作多年的知识产权专家、律师、专利代理人组成，熟悉中欧美知识产权法律理论和实务，在全球知识产权申请、布局、诉讼、许可谈判、交易、运营、标准专利协同创造、专利池建设、展会知识产权、跨境电商知识产权、知识产权海关保护等方面拥有丰富的经验。

（校对/holly）

推荐阅读

目录