10

Vehicle 公众号 · 2021年07月06日

汽车AI智能语音101及其供应链

没有人会怀疑智能驾驶座舱是四化下的一个重要的板块,何为智能驾驶座舱,是满眼的大屏?显然智能驾驶座舱的智能是懂消费者,懂消费者是从哪几个方面?懂消费者说的话,懂消费者的表情姿态,基于目前的阶段显然懂消费者说的话是最先需要满足的,因为语音直接。所以车载语音识别与控制是目前智能驾驶座舱重要方向,Soundhound公司官网数据列出目前汽车用户95%对于车载语音不满意,但是到2025年汽车车载语音市场达166亿美元,到2028年90%的汽车都会拥有车载语音控制,也印证了车载语音控制的市场以及空间。

1.png

本文将结合相关资料对车载智能语音的以下部分进行分享

  • 车载语音的使用场景
  • AI车载语音的技术原理
  • 车载语音的供应链
  • 当前主流以及新势力汽车厂家的车载语音
  • AI智能语音的挑战和未来

本文近五千字希望能给汽车行业管理战略,行业投资,研发销售等带来一些思考。

AI智能语音的使用场景

我相信谁都没有多大的耐心在车机上使用按键输入你想要去的目的地,你可能会选择使用Carplay 以及baidu carlife ,或者采用语音控制。我相信到现在行车时,谁都知道当你低头去操作车机控制空调或者寻找歌曲时候会给你带来安全风险,你更愿意语音控制。我相信到现在很多人希望你的车是懂你的可以和你沟通交流的,而语音是最好的方式。所有的这一切就是AI智能语音使用的场景。

Voicebot 的调研显示现在94%的人表示会继续和更加使用车载语音控制,超过47%表示未来肯定会更加依赖语音控制。

2.png

voicebot 最新调查显示超过60%在购买车辆时候会考虑到车载语音控制

3.png

Voicebot最新车载语音控制调查显示,当前车载语音控制主要应用在几个方面:

  • 73%的人会使用车载语音接打电话
  • 50%的人会使用车载导航
  • 41%的人会使用车载语音发短信
  • 38.7%的会使用车载语音控制播放音乐

所以当前消费者对智能语音是需求非常高,但主要应用场景是没有大面积打开,主要是当前语音控制确实鲜有做的比较好的,对于智能驾驶座舱来讲未来还有广阔的空间。

4.png

未来使用场景,导航以及娱乐会更加加强(例如我们之前文章奔驰MBUX Hyperscreen 技术以及供应链,奔驰就意识到了),但是随着家庭万物互联的到来车机控制家里的设施需求更加强烈,这也就我们之前文章(小米汽车-大手机加四个轮子小米等开始造车他们应该在这方面会有所推进),另外预定酒店,餐厅,预定服务等等。可想而知在自动驾驶短时间内人类无法完全脱离驾驶(点击当前影响汽车实现全自动驾驶四大阻碍了解自动驾驶时间预测)的时候,车载语音控制的需求和实用远比其他消费电子更多。

5.png

AI智能语音的原理

6.png

前端信号处理

是麦克风接收到语音之后,前端信号处理进行回声消除以及降噪以供下一步的处理。

ASR自动语音识别

这一步是将语音数字化,然后分解或解析口语问题中的自然语言,以便机器识别每个单词。由于不同的口音、无法识别的语调,同时语义具有领域性特征,甚至环境背景噪音,这种翻译的准确性可能并不总是 100%,这也是具有挑战性的,所以这里有两个重点,一个是芯片处理速度,第二个是芯片处理算法。

所以现代ASR 引擎利用云中高度可扩展的计算服务,并应用自动语音识别 (ASR) 算法将短语快速分解为可分析的组成词。为 Alexa 提供支持的一项此类服务称为 Amazon Lex,现在所有主要供应商都提供云服务:Microsoft Cognitive Services、Google Cloud Natural Language。这些服务不仅为应用程序开发人员提供了一个集成的云服务来执行 ASR,而且还执行理解单词和确定意图所需的分析和统计置信度评分。

NLU自然语音理解

这一步在单词被解析并翻译成机器语言后立即发生。自然语言理解 (NLU) 是语音控制迄今为止最困难的一步,因为系统需要理解用户原始问题的意图。由于自然口语可能存在歧义,因此这一点很复杂,因此 NLU 算法必须使用各种词汇分析模型来消除单词的歧义。这也就是构建成了现有玩家们的核心实力。

当前AI语音中开发人员创建规则来“训练”应用程序正确应用这些规则以确定用户的意图。当然,每个人提出的问题都不一样。因此,多个问题可能具有相同的意图。例如,以下话语可能都具有相同的意图,调低空调温度:

“请调低空调温度”

“我很热”

“我觉得很热”

只有正确理解了意图,才可以启动功能。

DM 对话管理

很多时候我们判断车机智能不智能都会通过和他聊天去确定他是傻还是真智能,而聊天很多时候语句会断而且还有补充语句,这个时候对话管理就异常重要。例如:

“请帮我导航到最近肯德基”结果你还需要停车场,那么你可能立马补充一句有停车场的,甚至很多时候你会有更多的补充,在这里,对话的对话方面被考虑在内。对话实际上是用户与系统之间的动态交互序列,这意味着策略定义、执行子任务以及从诸如用户误解等意外情况中检索。

通过记住对话历史,可以使计算机输出更自然,更符合智能语音。

NLG自然语音生成

为了提出交互式响应,计算机需要能够与用户进行交流。这被称为自然语言生成 (NLG)。把它想象成与以上刚刚描述的相反的方向。NLG 使用机器语言,使用一组语法规则和词典,将其翻译成规则的单词和句子。

TTS文字转语音

通常,最后一步是使用语言模型将文本合成为音频,以在称为文本到语音的过程中模拟人声,从而实现互动。

同样,以 AWS 为例,AWS 上有一项名为 Polly 的服务,可将文本转换为逼真的语音,以便确认或其他问题可以以自然语音回传。每次您的设备向您“写”一些东西时,它也会大声说出来。这是文字转语音。

总共这六大块,有业内人士说“语音识别技术并不难,有很多开源的技术,难的是语义理解,这需要建立一个复杂的知识库(内容域),将字词和背后的意思联系起来,其实这就需要人工智能的能力,需要大数据对人工智能的不断总结和训练(这个和我们之前文章高级自动驾驶的“拦路虎”以及路径和战略选择讲当前ADAS方法一样与用户共创)。

7.png

所以这就造就了当前大家的技术方向,离线以及云端的语音内核,也改变了当前车载语音供应链结构,也给很多IT 企业商机,当然更重要的是确实推动了车载语音的进步最后提高了客户体验。

AI 智能语音的供应链和玩家们

8.png

对于AI 智能语音的供应链,主要包括以下几个方面:

  • 麦克风和音响
  • AI Engine
  • AI 芯片
  • 智能语音应用
  • 服务以及集成
  • AI框架以及存储

麦克风和音响,属于比较传统的序列,基本上以当前汽车原有供应商序列,但当前催生的比较火的是MEMS(微机电系统Micro-Electro Mechanical System)麦克风,他的优点有低能耗,小,且精度高等优点。

AI ASR 以及NLP(NLU,NLG,TTS) Engine ,是包括所有语音识别,自然语音处理和反馈机制的处理引擎,国际非常出名的是Nuance 下面拆分上市的Cerence,基本上所有的合资以及进口车型都采用其服务,当前需要进军国际车市的国产品牌都会采用其服务,主要是由于其历史悠久而且语言覆盖率是最广的,离线能力强。而且当初科大讯飞还代理过其语言识别,另外是houndify ,他和Cerence有一样的优点是强调汽车制造商可以有一个强大的语音助手而不放弃他们的用户体验或数据到亚马逊,苹果或谷歌。它目前提供基于云的人工智能服务。

国内比较出名的当属科大讯飞,云知声,出门问问,思必驰,显然他们的优点是对中国语言的专注,当前也是基于云的强大应用。

AI Chip芯片和模块

999.jpg

对于芯片这边,芯片还是来自于传统的芯片模块巨头,例如NXP,Novida,Renesas,infineon等。国内在AI语言这块还是有不少玩家参与例如地平线,云知声,思必驰等。

AI 智能语音应用,AI 智能语音应用广泛,其实就是你交互的那个应用,我们这里划分成以下三个:

  • 本地自然语音-基本上当车辆不联网时候能够使用的就是本地自然语音应用一般是cerence的优势,他需要把前面介绍的ASR,NLU,NLG,TTS都全部集成在本地以便无网络支持时候使用
  • 网络自然语音-网络自然语音显然就是AI的自然语音云处理以及调用云库信息以实现更智能的响应,同时部分带有互联网应用生态。
  • 第三方自然语音-就是独立的应用基本是移植自消费电子端的应用,他优势是有丰富海量的应用例如亚马逊的Alexa,苹果的SIRI,国内的天猫精灵,百度小度等,但目前他们都没有离线能力。

其实现在互联网汽车都可能同时含有以上三个应用,以满足不同的应用场景。

智能语音开发服务以及集成,其实智能语音开发和服务集成也拥有很大的市场,他是服务主机厂帮助其快速整合打通智能语音开发服务和集成到整车项目中,国际上有LG,Bosch,大陆,国内有镁佳科技,仙豆智能,出门问问(ASR NLU, cerence的TTS),同行者(云知声技术支持)。

云服务器以及AI 框架,随着智能语音控制的诞生,显然离线车载语音已经无法满足,AI引擎,库以及AI 训练的需求。以及各大主机厂都不愿意把数据库提供给第三方的AI引擎,更愿意请第三方整合不同的AI引擎采用不同的云以及AI框架,最后数据和库归自己所有的方式。所以云服务器以及AI框架是非常重要的一个组成部分,现在比较头部的玩家有亚马逊,微软,英伟达,国内有阿里云和百度云以及其框架。

当前主流以及新势力汽车厂家的车载语音

我相信最近上汽董事长陈虹对于自动驾驶华为的全包方案喊出”不做没有灵魂的躯壳“时候我们就会明白,聪明的主流厂商不会选择一家全包,而是采用融合,其中固然有几点,对于供应商的管理,对于核心数据的拥有。所以目前车载语音主流主机厂们采取的方案是融合供应商的ASR,NLU,DM,NLG,TTS,自己掌握核心数据。

10.png

奔驰MUBX:

采用Nvidia 芯片以及AI 框架,同时该解决方案利用Nuance 的Dragon Drive的ASR 和SoundHound 的Houdify 的TTS,实现自然语言交互并支持更广泛的用例集。梅赛德斯司机还可以分别使用蓝牙或 Apple CarPlay 和 Android Auto 访问 Siri 或 Google Assistant。但是,这些解决方案无法让驾驶员控制汽车功能,例如气候和机舱设置。

宝马IDRIVE:

BMW与微软的Bot框架、Azure Bot服务和认知服务解决方案合作开发了多助手平台。他甚至可以通过嵌入式助手访问您的Microsoft Office应用程序。同时与Apple CarPlay、Android Auto和Alexa Auto选项共存的助手。

蔚来:

科大讯飞为提供了底层能力(应该是ASR,NLU),蔚来自有产品技术团队(抑或是镁佳科技)根据车辆使用场景进行了定制化开发,实现DM(对话管理)、NLG(对话生成,语料库设计)和TTS。

目前cerence有消息称蔚来采用其服务,可以肯定一点是蔚来要进入欧洲市场或者其他市场必定会采用他就像前文讲的cerence的优势语言覆盖广,当然也可能是为了供应商管理采用多方服务。

小鹏:

小鹏的语音技术是和思必驰合作开发的,小鹏首先搭建起框架,语音识别过程中具体的语音唤醒、语音识别采用了思必驰的技术,一些基本功能如打电话、查天气和语音合成等也是采用了思必驰的技术。而更为核心的语义解析、识别增强、语义抗噪、语义打断、自然语言处理等功能则是小鹏自主研发,当然以上语句为小鹏宣称的但是你了解,其实小鹏采用了Cerence 以及科大讯飞的服务,可能是不同车型采用不同的方案,也可能是整合各方优势,例如ASR采用科大讯飞,TTS 采用Cerence。

小鹏的语音助手的处理和决策在本地和云端两部分进行,唤醒、车控这些基本的功能都会在本地进行,更多需要计算能力的功能则会在云端进行,在没有联网的情况下,会进行网络重连,一旦重连成功,会首先恢复云端计算。如果实在无法恢复网络,导航和音乐等需要借助于云端的功能就无法实现,但对车辆的控制是可以实现。

上汽:

上汽的斑马采用了达摩院提供的前端算法、唤醒,思必驰提供语音识别能力,科大讯飞提供 TTS 音色。

上汽的其他车系有采用Cerence的ASR以及其他服务因为需要国际化,所以需要各种语音的ASR.

总的来讲,主机厂智能语音主流趋势是整合各方供应商的语音引擎,建立自有语音平台数据库,支持第三方智能语音应用生态。

AI智能车载语音的挑战和未来

显然AI智能语音是未来智能驾驶座舱的重中之重,犹如驾驶体系的自动驾驶驾驶,拓展后是基于智能语音的应用生态。

11.png

目前评价语音识别的指标有:准确率-语言唤醒,声源定位,在线/离线识别率,语义理解率,连续对话理解,单句多任务理解。未来可能会有更多的声音指纹,生态等。基于这些需求可能引发如下技术和法律方面的挑战:

  • 背景噪声,口音,长句,多句的识别准确率。汽车背景噪声会破坏正在分析的音频信号, 并严重影响结果词的准确性。口音,长句,多句都是需要不断学习和建立数据库的过程。
  • 隐私,学习处理大数据,当麦克风一直在监听并把你的信息录音发送到云端,你是不是后背发麻,这个个人隐私法律是未来巨大挑战?学习和处理大数据需要的算法和处理同样是未来挑战
  • 仿生视觉和语音融合识别,人类都非常明白表达时候的身体以及面部表情是富含丰富的信息,有时候语言可能带有欺骗性,所以未来仿生视觉和语言融合是语音控制的高阶方向。
  • 软硬一体的云+端模式

最后

借用Nodes的一张图,谁是这个车载语音技术领域的领先公司,哪家汽车会提供给客户最好体验的语音控制?下面的地图列出了玩家一些玩家,显然目前还是战国时代,大家都在圈自己的地盘,我们也看到了不少AI算法框架的工具例如chatflow,voiceflow。可以肯定未来拥有大数据,基于大数据准确的分析算法是制胜的法宝。

121212.jpg

参考文章

  1. Voicebot 2019,2020研究报告
  2. 行走的语音-Capgemini
  3. Automotive Packaging: Market and Technologies Trends - Yole
  4. Empowering automotive innovation Seizing the connected car opportunity with Microsoft
  5. 现代汽车tech
  6. allion
    部分图文版权归以上资料方所有

*未经准许严禁转载和摘录


作者:Pirate Jack
文章来源:https://mp.weixin.qq.com/s/CeL4puYeZ0vTHfS5AYxzsg
微信公众号:
vehicle.jpg

相关文章推荐

更多汽车行业干货请关注Vehicle专栏
推荐阅读
关注数
10742
内容数
181
做汽车行业内最有价值的干货内容提供者
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息