啥都吃的豆芽 · 2020年03月11日

如何使用Alango Technologies在Arm上实现语音和音频处理

Chris Shore
June 18, 2019

image.png
想像一下您在家中的智能助手:当你说出一条命令,它就能识别您的声音,处理您的发言并做出响应。这就是一个需要信号处理的多传感器设备的案例。像如此的引人注目的语音通信产品的设计人员,以及支持这些产品的半导体解决方案,都面临着确保高性能,有效利用系统资源的挑战。

如果没有预处理软件,语音通信过程中的可理解性就会受到影响。这意味着通话的另一端的人或语音控制的扬声器将不会听到或无法理解讲话者发出的声音。预处理软件必须有效利用MIPS(每秒处理的百万级的机器语言指令数)和内存等计算资源来保留语音信号。此外,这些设计人员需要直观的配置和调整工具,以提供用于快速产品开发的诊断和开发环境。那么,您需要从哪里开始,如何实现所有这些目标?

选择最适合的计算平台

首先,您需要适合您应用程序的硬件处理能力和效率。Arm Cortex处理器系列提供了一种标准架构,可满足这些不同产品市场所需的广泛性能范围和成本范围。Arm Cortex系列包括基于三种不同配置类型的处理器:

  • Arm Cortex-A系列处理器,适用于运行在复杂的操作系统之上的成熟的、高端的应用程序
  • Arm Cortex-R系列处理器,适用于高性能实时系统
  • Arm Cortex-M系列处理器,适用于需求低功耗以及成本敏感型的微控制器应用

image.png

在数字信号处理方面,本篇博客将涵盖Cortex-A和Cortex-M处理器系列。

Arm Cortex-M处理器系列特别适用于要求高性能和低计算占用空间的各种应用,例如基于语音和音频的设备。特别是Cortex-M4,Cortex-M7,Cortex-M33和Cortex-M35P处理器提供了数字信号处理(DSP)指令扩展(针对Thumb指令集)和可选的浮点单元(FPU),将DSP和高级处理器相结合,这种设计专门用于帮助提高数值算法的性能,并提供直接在CPU上执行信号处理操作的机会-简化编程,降低功耗并降低BoM成本。

ARM Cortex-A系列处理器相比M系列具有更高的性能和更丰富的功能集群,特别适合那些需要进行复杂的计算任务的应用程序。该处理器系列支持称为Neon技术的高级单指令多数据(SIMD)体系结构扩展。Neon通过加速音频和视频的编码和解码,用户界面,2D / 3D图形或游戏来改善多媒体用户体验。它还加速了信号处理算法和功能,以加快应用程序的速度,例如音频和视频处理,语音和面部识别,计算机视觉和深度学习。

Alango Technologies是Arm DSP生态系统合作伙伴,他们通过提供DSP算法和软件增强功能来改善各种应用中语音通信和音频体验的质量为Arm技术提供支持。目前他们的技术已经被用于许多应用当中,包括汽车免提系统,蓝牙耳机以及语音控制扬声器等。

让我们探索用于语音和音频设备的Alango Technologies。

语音通信预处理和语音活动检测

预处理程序包,需要针对为适应多种应用而对于系统的特授需求以及行业合规进行定制。具体产品例如TWS耳机需要的近场麦克风以及智能音箱需要的远场麦克风阵列。

理想的预处理技术以较低的MIPS和内存运行,从而在通话的另一端产生听起来自然并且可以被理解的语音信息,或提高自动语音识别(ASR)引擎的性能。

一流的预处理技术的特点包括:

  • 快速适应环境噪声的变化
  • 内置风声降噪
  • 无回声,全双工,可交互

通过将传统的外部麦克风拾音器与入耳式麦克风或骨传导传感器元件配合使用,可以进一步改善语音清晰度,因为该传感器位于内部且与环境声音隔离。不容忽视的是,创新的下行通道处理为增值产品的发展提供了另一个契机

把这些属性结合在一起,增强了设计师开发引人注目的产品的能力,这些产品具有增加公司收入的真正潜力。通过针对通用Cortex-M处理器平台进行了优化的Alango语音通信包,所有这些都成为了可能。

语音活动检测(VAD)用于检测声音信号中的语音,这可使系统保持待机状态,直到检测到语音为止。Alango的VAD消耗不到2MIPS的处理能力;这是Arm Cortex-M处理器上提供的独立语音活动检测解决方案中同类产品中最低的。对于电量能耗敏感的产品来说,是一个巨大的优势。

Arm Cortex-M上的Alango Technologies

Alango在为使用Arm Keil MDK开发的基于Cortex-M的设备移植和优化其软件产品方面取得了卓越的成果,ARM Keil MDK是基于Arm的微控制器的最全面的软件开发环境。µVision IDE包含行业标准的Arm编译器,并提供了调试和分析书面代码的简单方法。

下列Alango软件产品已针对Cortex-M4和Cortex-M7处理器进行了移植和优化:

  • 语音通信软件包 “ VCP”-人与人之间的通信-一种用于语音应用的数字信号处理技术通用软件包,可在各种环境下实现高质量,全双工和无噪声通信。
  • 语音增强包 “ VEP”-人机通信-一套实时软件DSP技术,旨在提高语音控制多媒体设备中的语音识别性能。
  • 语音活动检测器 “ VAD”-f 或可靠地检测声音信号中的语音
  • 声音增强包 “ SRP”-一组DSP软件技术,可在实时PA和车载通信(ICC)系统中实现声音增强。
  • 声音效果标准化 “ SEN”:增强电视和流媒体内容中激进的特殊效果的语音对话
  • MuRefiner 音频增强功能允许用户减轻其设备或收听环境的弊端,并最大程度地享受音频内容。

Arm Cortex-A上的Alango Technologies

Arm Cortex-A处理器系列特别适合具有较高计算负荷的应用,例如带有远场拾音器的语音控制智能扬声器。这些语音接口/控制产品结合了许多软件和硬件技术。通常超出了开发人员的技能范围。因此,为了帮助开发人员,可以使用许多单板计算机来帮助您入门。例如,Arm Leading Edge的合作伙伴Seeed Studios提供了两个工具包,这些工具包允许结合Alango的语音增强包来实现语音控制功能的全包式升级。这些套件使公司能够有效利用高性能语音接口产品,而不必掌握音频和其他技术集成的各个方面。

Seeed Studios的套件:ReSpeaker Core v2.0
Raspberry Pi的ReSpeaker 4-Mic Array

ReSpeaker Core V2基于Arm Cortex-A7处理器,使开发人员可以创建强大而有影响力的语音和声音接口。该开发板包括Core V1的许多新功能,包括运行Debian和Android的机会。

ReSpeaker Raspberry Pi基于Arm Cortex-A53处理器,是用于Raspberry Pi的4麦克风扩展板,设计用于人工智能和语音应用。该产品是构建与Amazon Alexa语音服务和Google Assistant集成的更强大,更灵活的语音产品的理想选择。

英文原址:[https://community.arm.com/dev...]

推荐阅读
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息