啥都吃的豆芽 · 2019年08月12日

谷歌语音助手

语音助手市场

谷歌的语音助手自从发布以来发展的飞快,迅速的在语音助手市场上占据了一个很大的位子, 同时和谷歌庞大的Android生态并行生长,逐渐的嵌入到了各种智能设备中.据2019年的数据统计,已经有了超过5亿的设备添加谷歌和苹果的语音助手,而微软的Cortana和亚马逊的Alexa的数据为4亿和1亿. 就目前而言,谷歌与苹果支持智能语音助手最多的设备是手机. 谷歌语音助手副总裁Manuel Bronstein曾提过,智能音箱和别的智能家居设备是语音助手使用增长的一部分, 手机与Android设备占的比重最大. 近期Google Assistant将在10亿以上的设备上应用,而以后的增长主要会依靠未来更多的手机型号上. 第一代谷歌的pixel手机在2016年发布,虽然在欧美手机市场上和苹果三星比是九牛一毛,但根据近两年的出货量和谷歌pixel的财报来看增长还是较为稳定的, 显然谷歌在手机方向会逐渐的迈大步伐,并带动这语音助手一同并行.
image.png

语音助手对于消费者来说强调的是体验以及支持. 在体验上,Google Assistant和其他几家的语音助手已经拉开了明显的差距. 好的体验在于智能设备是否能更接近于人的方式和用户进行交互. 谷歌由于自己强大的搜索引擎以及在人工智能领域的大力投入,在语音识别、语义分析、机器翻译和语音合成等领域里,准确率已经达到了一个较高的水准. 更高的准确率必然会给用户更好的体验感,相信很多人都厌倦了需要喊好多次或者等好久才能激活语音助手的这种体验. 值得一提的是在今年的Google I/O大会上演示的Google Assistant的一个新功能,直接喊“stop”,无需任何激活就可以直接关闭智能音箱或者手机上的闹钟,这是几届Google I/O欢呼声较高的演示之一. 在语音助手上,对用户的心理把控有时候会比机器的能力大小更重要,这种把握用户心理的小功能在智能语音市场有时能比肩杀手级应用,值得开发者们借鉴.
image.png
在支持上, Google Assistant 现已支持1600+的品牌,10000种不同的智能家居设备并且内置在了10亿+的设备上(这个数字18年5月的时候是5亿). 来个对比,亚马逊作为语音助手的最早期玩家,合作的品牌截至到现在是4500个,支持的智能家居设备种类是谷歌的3倍之多,但基于Google Assistant的设备出货量要远远领先. 就未来市场而言,大部分商家的策略是同时支持市面上各大语音助手,那么Google Assistant再支持个2000-3000个品牌也只是时间问题. 目前Google Assistant已经支持了80个国家和30种语言(包括中文. Alexa至今为6种),这种扩展方式让人联想到了Android, 不知未来Google Assistant是否也会演变成语音市场生态的核心.
image.png

Google Assistant SDK

Google Assistant SDK在2017年4月27日发布,当时支持的语言只有美国英语一种. SDK的推出目的在于让开发者能够将谷歌语音助手嵌入到他们自己的各式各样的设备中去. 一个月以后谷歌做了第一次更新,这一次更新开放了基于Python的Google Assistant Library(由Python编写并支持基于linux-armv7I和linux-86_64的硬件,现合并在了Google Assistant service里面),支持了“OK Google”语音唤醒以及语音设置时间和闹钟的功能,并在之后的release上不断的增加SDK所支持的语言,以及谷歌自己或者第三方智能软硬件的功能和服务. 例如用语音助手去操控Google Map,或者连接Uber服务叫车. 同时谷歌也针对开发真自己的智能应用融入Google Assistant而提供了兼容和开发的帮助.

借助Google Assistant SDK用户可以把Google Assistant嵌入到自己的设备或者Project中去. SDK提供了两条路径,第一种是谷歌内置设备的Actions和根据Action而创建好的特征库,这些都是可以直接拿来用的. Action和特征库是什么呢?谷歌根据市面上常见的电子设备总结一些通用的功能,并且根据这些通用的Action而创建了相应的一套子功能库. 举个例子:用户可以打开或者关闭客厅或者卧室的灯,而如果买的灯是智能灯的话,用户便可以调用灯的子功能库,比如说更改亮度、颜色等. 开发者在一些常见的智能设备里添加谷歌语音助手会变得非常容易. 而另一种情况就是开发者希望创建一些特别的功能Action,比如说让灯狂闪一小时😄. 开发者首先需要以JSON的格式在Action package里自己定义单个或者多个不同的Action(如下图中蓝色的Print),然后再定义当语音输入被识别后的系统语音回复是什么. 同时每个Action可以包含多个参数(如图中红色部分代表的形状)
image.png
image.png

Google Assistant service提供了一个低等级的API,允许用户直接操作语音助手的请求和响应的音频字节,在平台的兼容性上目前支持所有谷歌远程过程调用框架(gRPC)所支持的硬件平台以及语言. 目前在操作系统中已经支持了Windows、Linux和Mac,还并没有微控制器的操作平台. 不过在亚马逊和苹果都已经在设备中添加了Arm Cortex-M系列用作主控之后, 谷歌现在大有可能在加强自己的研发和与芯片公司的合作,增加SDK的对更多的平台进行支持.
image.png

Google Assistant运作时的数据流动

image.png
用户在使用Google Assistant并获取服务的时候,形成的是一个云端到云端的交互过程. 当智能设备接收到用户的语音指令后,会将语音信号上传至Google Assistant 云端服务器,具体执行操作的是谷歌的Dialogflow. Dialogflow(以前叫api.ai,2016年被谷歌收购)是谷歌基于自然语言处理、对话以及人机交互的API. 语音指令通过Dialogflow进行自然语言处理,定义语音的意图,利用训练提升语义分析能力并输出一个JSON格式的请求,结合谷歌云端对用户身份以及其他的信息提取最终传到第三方云端服务上(或者谷歌自己的云端服务)去,再进行执行与反馈. 反馈的信息按照相同的路径传回,最终同样会经过自然语言的处理由设备将反馈说出来.

Next Step

下一代的Google Assistant主题依然是端测.速度变快功耗变小. 采取的方案是将机器模型从100G压缩成100M,从而将计算的压力从云端解放到了端. 年底的Pixel 4将采取这种做法. 而谷歌的技术团队同时也在为IoT设备走向端测努力中, 让智能音箱等设备直接在本地处理部分音频信息. ML on MCU是未来的一个大趋势. 谷歌目前在与Arm紧密合作,尝试将AI技术添加到MCU中去,致力于添加新的AI指令,例如让一个指令就能做一次卷积,并且编写新的TensorflowLite的Interpreter专门用于MCU. Google Assistant未来将会出现在更微小的设备中去. 所以,未来的谷歌产品大多会以Google Assistant为核心,强化智能语音技术,提出更多的语音解决方案(例如目标识别)并且逐渐走向端测.

我们会陆续发布以国际上几个主流的语音助手为核心的智能家居品牌以及旗下产品的资料与硬件信息,供大家参考😉

推荐阅读
关注数
14
内容数
19
如果您需要了解海外科技公司的生态资源信息,欢迎联系:Aaron.Liu@armchina.com
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息