端侧AI语音SoC开始起量，细分化加剧

来源：电子发烧友网 • 作者：张慧娟

语音识别是人工智能技术迄今为止非常明确的落地应用之一，终端人工智能语音芯片将迎来高速增长，在近期的这一波智能语音芯片中，在高速增长的市场需求面前，对于降低开发成本、缩短开发周期、快速对接客户需求等方面卡位非常精准。为了让设备使用场景不受局限，用户体验更好，端侧智能已成为一种趋势

从近期量产的几款智能语音芯片来看，除了在性能和功能方面的不断提升，各家在价格优势上拼尽全力，这首先与其市场定位有着密不可分的关系，其次也是商业化落地的必然结果。

启英泰伦9月19日在深圳发布第二代语音AI芯片CI110X 系列：CI1102和CI1103，其中CI1102主打高性价比，CI1103承载更多算法和功能。与上一代相比，第二代芯片集成双通道codec，搭载SDIO并可支持Wi-Fi接口，实现了离线+在线语音的结合。除了在性能、功能上的突破，启英泰伦更将语音模块价格下拉到最低14.99元（单笔订单＞500K）。

同日，探境科技推出语音AI芯片音旋风611，该芯片基于探境独创的存储优先架构，采用创新音频阵列算法，支持200条唤醒词，命令词识别率高达97%，可远场识别10米识别范围，具有毫安级待机功耗，常用接口齐全且外部电路简单，而售价不到2美元。

安普德科技的ACH1190芯片据悉已成功流片，预计将在9月正式出货。根据官方提供的信息，这款芯片尺寸有7mmx7mm及3mmx3mm多种尺寸的封装，内置codec、DSP，外围器件少，FPU 计算能力 250 DMIPS，最多可支持4个麦克，单麦克方案可实现远场10米的识别，同时加入了回声消除、降噪技术、波束成形技术，出货价格大约在1美元以下，与市面同类产品相比价格优势更为显著。除了离线语音识别应用外，结合安普德自主开发的双频（2.4G/5GHz）Wi-Fi芯片，可以实现在线AI语音识别的部署，两颗芯片可以为客户提供更加完整的方案，整体成本更低。

清微智能的语音SoC芯片TX210，于6月下旬宣布实现规模化量产，具体价格不详，据称未来两年可出货4000万颗。这款芯片采用了CGRA可重构计算架构，在同等算力下，功耗远低于同类产品，工作功耗2mW，VAD功耗100uW，可面向众多应用场景下的智能终端产品开发，特别是对于功耗要求敏感、体积要求苛刻的超便携和物联网产品，如手机、家居，玩具及智能穿戴设备，特别是针对现在大热的TWS应用，低功耗设计非常有优势。据了解，可重构计算是一种无需指令驱动的计算模式，它基于数据流图，面向的是异构的空域计算，一次配置形成固定的电路结构，从而以接近ASIC效率反复执行，资源利用率和数据复用率高。相比ASIC方式的固定电路结构，它又可以依据应用或者算法进行电路配置，形成不同的计算电路结构，具有很强的灵活性。

智能语音芯片的价格因素有哪些？

对一款智能语音芯片进行系统级设计时，有四大要点值得关注：首先，所支持指令词的个数，决定了存储结构和加速核架构。需要考虑的因素包括：单个model的大小、NN每层计算需要的数据量，以及是否需要CPU参与运算，这意味着系统需要考虑Flash容量、Flash带宽以及SRAM容量，NN加速核RAM容量、MAC个数，以及CPU的选型、时钟频率等。

第二个要素是降噪算法需求，涉及到降噪算法的种类、麦克风个数，以及播放打断等操作需求，相应地将影响到DSP的架构，包括MAC个数、频率、RAM容量，以及模拟硬件接口等。

第三个要素则是低功耗待机需求，最为关键的考虑就是是否需要电池供电，低功耗设计需要考虑特殊codec架构、硬件/软件VAD、触控激活等等。

第四个则是方案成本。决定一款智能语音芯片方案成本的因素包括模拟麦、数字麦、驻极体、硅麦等，以及封装、晶振，相应的外设支持，例如模拟麦克风的通道数、CMU设计等等。

从不同架构的智能语音芯片演进路线来看，当前主要有四种：MCU、MCU+DSP、MCU+NN以及MCU+DSP+NN。

传统语音芯片以通过MCU来实现语音控制为典型代表，这一市场的特点是低价、低毛利，据了解成本约为0.5-1美元；后来逐渐加入DSP之后，可实现轻量级的NN支持，在识别指令数量方面有提升，但是通常并无降噪支持，成本约为1美元左右；第三种架构则以MCU+NN为主，可支持CNN、DNN等模型，成本约为1-1.5美元；第四种MCU+DSP+NN是当前市场上的主流，可支持CNN、DNN等模型，识别指令数量进一步提升，支持降噪，成本约为1-2美元。

当前智能语音芯片比较典型的应用是一部分依赖传统的DSP算法，一部分是利用RNN/CNN等神经网络算法进行数据处理。业内人士认为，未来将出现更多类型的神经网络算法，以满足各种语音交互的场景，而这些算法都能够被同一颗智能芯片所兼容，在不同的情况下调用不同的神经网络来满足用户需求。

庞大市场需求催生端侧AI语音芯片快速起量

根据前沿产业研究院数据，智能音箱、智能家电设备的语音控制功能需求的增长，预计2021年达到3亿台。手机、可穿戴设备的低功耗语音唤醒需要专用语音AI芯片，预计2021年达到5亿台。而不仅局限于此，端侧低功耗、智能化的需求，将覆盖除家电、可穿戴设备之外的机器人、物联网等应用，市场总量巨大。

在诱人的市场图景面前，再来看国内目前比较受关注的AI专用芯片，市场定位、产品规划都各有千秋。

定位不同的芯片产品在具体的性能指标上存在明显差异，例如，定位入门级应用市场的芯片，大都仅支持单麦/双麦，能够实现的语音功能及适用的应用场景相对有限；而定位中高端市场的芯片产品在可实现功能方面更为多样化。

离线智能语音交互是当前一个重要的细分领域，无需联网可在本地实现语音交互，不仅能够保护隐私安全，同时也可以减少用户大量数据传送到云端的压力，当前主要应用于白电市场。可通过离线智能语音控制的家电产品目前包括：智能灯控、智能空调、智能电视、智能油烟机、智能玩具等产品。目前，创维、小米、暴风、海尔等均已推出智能语音识别电视，美的、格力、海尔、奥克斯、长虹均已推出智能语音空调。相关统计显示，2017年中国智能电视销量达4736.5万台，同比增长13.8%，2018年智能电视销量将突破5000万台。2017年，全国空调内销量8875.5万台,同比增长46.8%，近几年，空调每年内销量保持在6000万台以上。智能玩具方面，年出货量也有望达到亿万台。

安普德的语音识别芯片基于嵌入式架构进行开发，而非市面上常见的基于Linux系统的，这样做的好处是系统资源占用小、同时降低成本和功耗，但要求较强的系统开发能力。算法方面采用胶囊神经网络算法，是安普德专有的语音识别算法, 由该公司自主研发，专为嵌入式处理器而设计，语音识别芯片可与胶囊神经网络算法性能叠加，可提高用户体验，降低成本。该算法对于芯片成本的降低非常关键，它采用的数据量小、准确度高、CPU带宽使用率更低、占用内存小，所需外围器件大大减少。

启英泰伦也是在算法方面不断突破的典范。芯片设计起家后，启英泰伦从2015年开始了基于深度学习的语音识别芯片及配套算法引擎的研发，该公司将这一策略称作市场倒逼的结果，先后突破了本地中文语音训练引擎、本地英文语音训练引擎、麦克风阵列算法等。据启英泰伦方面称，“算法不是芯片商的优势，但如今算法成为了我们和其他芯片商竞争的优势。我们的价格刚开始有点高，但现在我们已经攻克了成本的难题，价格也成为了一大优势。”

不过，在思必驰-深聪智能商务负责人王宏松看来，在智能家居场景中，智能终端的交互既包括前面提到的离线语音操控功能，但更需要支持云端一体化的功能及应用，例如资源调用、声纹识别、用户ID画像等等。该公司在2019年1月正式发布了AI专用芯片TH1520，据王宏松介绍，“我们在一年半前开始的深聪项目，定位为中高端语音交互市场，包括中高端型号的白电产品、家居硬件等。此外，TH1520芯片在设计之初就已规划支持思必驰近期及未来一段时间的语音算法，算法同步和技术的迭代，将为客户带来更好的交互体验。”

TH1520芯片支持双麦/四麦/六麦的线性/环形等多型号麦克风阵列，能够应用的产品类型也十分多样化，实现的语音算法功能也更为强大。此外，作为后续增值服务，TH1520芯片针对白电产品提供“两个10年保证”，10年以上质量保证，10年以上长效供应。此外，该款芯片也支持-40℃~125℃温度范围，可用于车载应用。

由于语音芯片市场过于细分，需要企业根据各自目标场景和商业模式进行产品规划。曾经业界所担心的“PPT造芯”、概念产品等等，经过市场的新一轮检验后，一切都以能否产业化、规模化落地为检验标准，得用户者得天下。预测端侧AI SoC下一步将继续在SoC集成度、低功耗设计、以及软件的易用性方面进一步提升。

智能语音芯片的价格因素有哪些？

庞大市场需求催生端侧AI语音芯片快速起量

推荐阅读

啥都吃的豆芽

目录