【专利解密】探境科技语音识别，引领智能家居新时代

【嘉勤点评】探境科技的语音识别专利，通过提取语音信号的图像特征，使识别目标之间在时间维度上没有重叠的部分，从而提高了算法准确率以及语音识别效果。

集微网消息，后疫情时代智能家居再次被一众家电企业寄予厚望，但普及率远不及预期，大多数企业对于家电智能化仍处于“摸着石头过河”这一初级阶段。多数家电厂商更关注家电产品本身功能的研发，对于AI语音并不在行。

近年来，随着深度学习的热潮再次涌起，基于深度神经网络的语音识别系统也随之火热，不仅在已有的最好系统基础上将错误率再次减低30％甚至更多，而且由于计算机基础设备的发展和大数据的产生，语音识别已经成为了具有商业标准的前沿技术。虽然语音识别技术目前已经相当成熟，但是在真实场景中，由于环境噪声、语音模糊性、口音等影响，为语音识别带来极大的挑战，致使识别率低。

为此，探境科技于2019年9月11日申请了一项名为“一种语音识别方法、装置、系统及存储介质”的发明专利（申请号:201910859397.2），申请人为北京探境科技有限公司。

图1 语音识别方法步骤图

图1为本发明提出的语音识别方法的步骤图，主要包括以下步骤：首先采集语音样本数据集（S1）。采用拾音器对各种工作现场或社会环境中的声音进行采集，实际操作中可根据需要采集不同分贝，不同语种的语言等。

然后获取所述语音样本数据集的语音特征图像（S2）。在此之前，还包括对语音样本数据集进行预处理，目的是消除声音和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等等因素，对语音信号质量的影响。尽可能保证后续语音处理得到的信号更均匀、平滑，使提取的信号参数更优质，提高语音处理质量。

再对所述语音特征图像进行标定（S3）。标定的识别目标包括目标语种的音素或音节或词或短语，目标语种的类别是不同类型的语种，并标记识别目标的起始位置、终止位置以及对应的类别信息。

接下来利用训练网络对标定后的语音特征图像进行训练，得到语音识别模型（S4）。学习率作为监督学习以及深度学习中重要的超参决定着目标函数能否收敛到局部最小值以及何时收敛到最小值。合适的学习率能够使目标函数在合适的时间内收敛到局部最小值。因此首先需要根据训练迭代次数动态设置学习率，然后利用训练网络对语音特征图像进行前向运算，再根据批量梯度下降更新模型参数，进行反向运算，最后获取总的损失函数loss曲线，并判断曲线是否收敛，若是则表示算法准确率满足需求结束训练，得到语音识别模型。

最后利用语音识别模型对待识别语音信息进行识别（S5）。在实际操作中可以将待识别语音信息输入该语音识别模型，获得待识别语音信息的位置和类别，进行识别。

简而言之，探境科技的语音识别专利，通过提取语音信号的图像特征，使识别目标之间在时间维度上没有重叠的部分，从而提高了算法准确率以及语音识别效果。

探境是一家以终端AI处理芯片为核心产品的公司，提供芯片硬件平台和软件算法的整体方案，是极具创新力的AI边缘计算芯片领导者。探境科技致力于让人工智能在物联网世界触手可及。

关于嘉勤

深圳市嘉勤知识产权代理有限公司由曾在华为等世界500强企业工作多年的知识产权专家、律师、专利代理人组成，熟悉中欧美知识产权法律理论和实务，在全球知识产权申请、布局、诉讼、许可谈判、交易、运营、标准专利协同创造、专利池建设、展会知识产权、跨境电商知识产权、知识产权海关保护等方面拥有丰富的经验。

（校对/holly）

推荐阅读

目录