本文为深圳湾的一期特别策划,来自 Sonos、思必驰、云知声、Rokid、全志科技的 5 位专家,将为我们解读关于离线语音助理的热点话题。同时,他们的观点和洞见,也让我们看到了从设备端到芯片再到 IP 内核,下一代语音 AI 平台和技术的发展趋势。
从 3 起语音助手初创公司的收购案说起
苹果近日宣布收购了爱尔兰的语音 AI 初创公司 Voysis。Voysis 成立于 2012 年,曾面向零售商推出了一个独立的语音平台,通过对用户数据库中产品、服务和词汇的深度学习,实现在较小的内存里实现 AI 的自然语言对话。
苹果公司可能会利用 Voysis 的技术来提高 Siri 对自然语言的理解能力,或者将 Voysis 平台提供给开发者,以改善 Siri 与应用的协作方式。
△ Voysis 面向零售商推出的语音助手,可以实现更精准的搜索
而就在今年 1 月,苹果以约 2 亿美元的价格收购了另一家 AI 初创公司 Xnor。Xnor 面向智能设备,推出了低功耗机器学习技术,可以在离线的情况下运行。
Xnor 和 Voysis 有相似之处,可以在很低的功耗或很小的内存下帮助智能设备实现离线语音。而离线是苹果公司感兴趣的,离线可以帮助设备更好的实现隐私。
△ 智能家居设备商 Wyze 在摄像头上采用了 Xnor 的离线 AI 技术,可以实现人脸、宠物、灰尘识别
苹果的两起收购案,无疑为我们带来了信号,是时候要帮助 Siri 成长了。
无独有偶,去年 11 月,音响界的苹果 Sonos 公司宣布以 3750 万美元的价格,完成了对语音助手初创公司 Snips 的收购。
Snips 是一个来自法国巴黎的语音助手初创公司,成立于 2013 年。通过 Snips 的离线语音平台,打造可以直接在设备端运行、无需将信息传输到云端的语音助手。这一主打离线操作语音平台也正是 Sonos 收购 Snips 的最重要原因。
△ Snips 语音平台
离线语音助理:更快的响应速度、更好的隐私保护、更自然的语音理解、更分散的使用场景、更细化的社会分工
去年深圳湾曾经与 Sonos 大中华区战略合作副总裁张维明有过一次对话,谈及 Sonos 收购 Snips 背后的思考。
一方面,随着家庭里的智能设备数量越来越多,设备需要稳定和高效的响应速度,用户也需要更好的隐私保护,而离线语音便是保障这两点的解决方案,离线语音是大势所趋。
另一方面,Sonos 也不需要一个全能型的 AI 助手,Sonos 所打造的智能音箱与 Echo 等智能音箱有着本质的区别,后者带有明显的「入口化」和「多媒体化」特点,而 Sonos 更关注的是音乐体验本身,而语音助手更像是一个个面向垂直场景的离线语音控制指令集。
△ Sonos Beam,支持 Alexa、Google Assistant、Siri 和 Rokid 等多个语音助手
就拿语音点播这一个场景举例,Sonos 希望能把体验做到深处,或许打造更多适合垂直使用场景的音乐技能,甚至也有可能把语音指令做到类似 Spotify 这样的内容里面,实现体验入微的内容点播,这正是 Sonos 希望能带给大家的极致音乐体验的一个例子。
思必驰创始人、首席科学家俞凯则认为,近期有关边缘计算的收购案很多,实际上是端上 AI。端上 AI 和边缘计算是两个概念,虽然都不需要经过云端,但边缘计算是在局域网和类局域网的边缘终端上进行的,而苹果和 Sonos 这些消费电子厂商在做的是端上 AI。
各家企业提出的「云+端」是普适的发展线路,云端比较集中,端上比较分散,无论是设备、技术、还是所提供的服务种类。针对端上的普适性语音助手的技术目前还不明确,大公司从布局的角度上,会选择收购小公司,来尽可能覆盖不同的设备场景。
对于苹果公司来讲,最典型的场景就是本地助理。早在 2011 年 Siri 面世,语音助理的概念被拓展的很宽泛,而如今则面临一个助理分散化的趋势。苹果的几宗收购案的共性是,聚焦在生活类场景,与实际的业务逻辑结合在一起。
这里还看到一个趋势——数字助理的行业化,是自然而然发生的。就像人类的社会分工,随着物质文明的进步,有专门的人钻研专门的知识。而随着数字助理的发展,也会有针对不同行业和领域的专门分工,有的公司做通用的数字助理,有的则选择垂直领域深钻。
△ 思必驰低功耗模组
端上语音交互:从云端到芯片,小型化,与业务逻辑深度整合,ASR、TTS、NLP 将成为标配
对于端上 AI 交互的发展趋势,思必驰俞凯也为我们做了总结。他认为,端上语音助理的小型化是现在的趋势。一方面,技术层面上,识别、合成、理解的模型都要做到足够小,另一方面,结合业务逻辑,小场景,理解能力更强。
端上 AI 并不是简单在将云端的技术拿来在端上跑,虽然技术种类并没有区别,但难度更大,比如,端上可以识别语音的范围和种类受限。其次,端上语音 AI 的更新和定制,是要难于云端的,端上的深度学习更难。
谈及趋势,云知声董事长、CTO 梁家恩认为,语音交互和硬件深度融合,结合低功耗边缘计算加速能力,是大势所趋,这是也是云知声做 AI 芯片的逻辑依据。
各家 AIoT 平台必然是「云+芯」结合的形态出现,感知和生成层面工作,基本上会在本地完成,云端解决协同和在线服务的问题。大公司基本上会围绕自己业务构建 AI 体系,独立第三方平台主要是面向中小企业和垂直化寻求发展。
梁家恩还指出,当前,离线挑战在于低资源、低功耗情况下保持高性能、低成本,减少环境复杂和模型压缩带来的精度损失。语音成为 IoT 设备的交互标配是大势所趋,边缘计算能力也成为必要条件。
Rokid 副总裁周军认为,随着模型小型化技术的进展,端侧可以用非常小的运算资源运行非常优秀的推理模型。比如在一个 DSP 上跑语音信号处理与多达 50 个离线命令词,噪声下可以达到 90% 以上识别率。
目前,端侧的语音识别(ASR)、语音合成(TTS)、甚至自然语言理解(NLP)占用的内存和运算资源还比较高,这也是创业公司的机会,通过创新的算法、模型设计以及新的芯片架构来解决。
△ Rokid 在 2018 年量产的 Kamino18 异构架构 DSP+NPU+CPU 至今还有很强的竞争力。
端侧的 AI 训练也将是一个趋势,通过自学习进一步提高智能。此外,除了离线语音,未来也会与离线视觉/图像/环境理解结合,创造出更有意思的产品。
当然端侧还是需要与云端配合,实现多用户协作,比如可以针对行业用户,定制智能 SaaS 服务。
△ 可实现离线语音操作的 Rokid Glass 2
离线语音在很多场景会成为一个标配,不仅是智能音箱,AR 眼镜也将是刚需。Rokid Glass可以在恶劣的工业环境下,无联网下全语音操作。
离线 AI 芯片架构的设计趋势:多重异构、高质量的周边 IP 配套、大算力、低功耗
近日,全志科技联合 Arm 中国推出了采用 AI 专核(周易 AIPU)跑智能语音的芯片 R329,它集成了 AIPU、DSP、CPU、双核 HIFI4 共 5 颗计算核,其最大的优势是在精度和算法移植的速度上的优化上,以及在设备端体现出来的低功耗、长续航、小型化、可扩展性等特点。
全志科技副总裁陈风则认为,语音识别(ASR)技术在大多数家居场景已经达到了实用程度,短期内再有大幅度提升不太现实,而「人工智障」的问题还有很大的改善空间,因此接下来的提升重点在于语义理解(NLP)。
NLP 的提升需要更高的深度学习算力,这就需要更强算力、更高能耗比的芯片支持。这意味着客户对芯片的深度学习算力、以及能耗比要求,都有了指数级的提升。对于芯片而言,集成音频 DSP 和音频 NPU 的需求已经出现,发展趋势非常明确。
本地 NLP 需要本地 ASR、本地 TTS 以及传统信号处理的配合,才能实现一个完整的端侧语音识别功能,对应芯片的需求就是需要音频 DSP 和音频 NPU 的标配支持。
有很多人会关心,除了语音,离线 AI 是否还有更大的拓展空间?陈风认为,现有通用 AP 用于离线 AI,还有一些地方不尽如人意,目前市场上谁先推出集成了音频 NPU 的芯片,将更有可能在这个需求明确的市场上建立领导地位。
现在 NPU 市场百花齐放,导致算法公司和客户存在大量的适配和优化工作,NPU 市场现阶段呈现碎片化状态形式。
未来,离线 AI 芯片架构的设计将具备以下几个特征:
1、支持多重异构:音频 DSP、音频 NPU 不可或缺,本地 ASR、NLP、TTS 均是基于深度学习的算法,降噪、回声消除等前端音频信号处理也在快速往深度学习算力上转移。
2、高质量的周边 IP 配套,如高精度多路 ADC、DAC 配套,多路 I2C/TDM、DMIC、SPDIF、UART 支持等。
3、兼具大算力和低功耗两大特性,以实现带电池设备的待机可唤醒,需要至少配备不小于 2MB 容量的 SRAM,低功耗状态下的内存带宽需要至少大于 600MB/S。
下一代语音 AI 平台和技术的趋势:场景化、全链路、软硬结合、高度可定制、云+芯
毋庸置疑,离线语音将成为 IoT 设备的标配,逐渐在市场普及。
△ 离线语音交互在家电家居市场已广泛落地
但离线语音的落地是有层次的。思必驰俞凯认为,首先是完成基本的命令控制、设备交互;之后,基于对设备隐私的保护,大词汇的语音合成、理解、识别将逐步在设备端实现。
需要强调的是,离线语音是不好作为独立的产品形态存在的,需要与云端能力结合,需要有一定的离在线结合能力,否则,语音助理是无法进化的。而未来语音助理的自学习、自进化能力是非常重要的。
在俞凯看来,下一代语音 AI 技术的发展,有两个趋势:1、场景化,未来会有越来越多的应用型公司;2、全链路、软硬结合、高度可定制、「云+芯」等综合技术的整合。
而随着 AI 产业的分化会越来越专业化,思必驰将会进一步夯实全链路的技术平台,将场景级的赋能做到极致。
要点回顾
- Sonos 不需要一个全能型的 AI 助手,而更关注的是音乐体验本身。在类似语音点播这个具体场景,把体验做到深处。
- Siri 把语音助理的概念拓展的很宽泛,而如今则面临一个助理分散化的趋势。苹果从布局的角度上,通过收购语音初创公司,来尽可能覆盖不同的设备场景。
- 端上语音助理的小型化是现在的趋势。一方面,技术层面上,识别、合成、理解的模型都要做到足够小,另一方面,结合业务逻辑,小场景,理解能力更强。
- 离线挑战在于低资源、低功耗情况下保持高性能、低成本,减少环境复杂和模型压缩带来的精度损失。
- 端侧的 AI 训练也将是一个趋势,通过自学习进一步提高智能。此外,除了离线语音,未来也会与离线视觉/图像/环境理解结合,创造出更有意思的产品。
- 对于芯片而言,集成音频 DSP 和音频 NPU 的需求已经出现,发展趋势非常明确。
- 未来,离线 AI 芯片架构的设计将具备以下几个特征:支持多重异构、高质量的周边 IP 配套、兼具大算力和低功耗两大特性。
- 离线语音的落地是有层次的。首先是完成基本的命令控制、设备交互;之后,基于对设备隐私的保护,大词汇的语音合成、理解、识别将逐步在设备端实现。未来语音助理的自学习、自进化能力是非常重要的。
- 离线语音将成为 IoT 设备的标配。
微信号:深圳湾 / shenzhenware
来源:深圳湾官网 / shenzhenware.com
版权声明:本文为深圳湾原创文章,极术社区经授权发布