脑极体 · 2020年09月16日

“度拉拉”升职记:中国语音助手的成长史

嗨,需要一位助理吗,出门提醒日程,郁闷时陪你聊天,繁忙时帮你辅导孩子学习,或者听令为你指挥家里智能设备工作的那种?

打开招聘网站,这样事无巨细的“私人助理”往往只有企业高管才有资格配备,并且需要支付不菲的薪酬。如果十年前,我说人人都能以几百甚至几十元的成本拥有一位私人助理,你可能会嘲笑我痴人说梦。但今天,我想没有人会质疑语音助手对普通人生活带来的改变。“能逼逼绝不动手”,早已融入我的日常习惯。

作为人工智能领域一个极具门槛的关键技术,语音交互是如何被赋予了“个人助理”这一现实角色的呢?

有一个可能会被记入中国人工智能发展史册的特殊节点,那就是2015年。

此前,早在国家863智能计算机项目当中,语音识别研究就被列为研究课题之一。但这都是学术界的事,普通人怎样才能感受到语音技术的魅力?

百度创始人、董事长兼CEO李彦宏与百度CTO王海峰2013年有过一番探讨,一致认为搜索的下一个入口是语音。但用户需要的不是冰冷的技术名词,而是可知可感的产品。所以问题又来了——语音能做什么?

最终,2015年的百度世界大会上,李彦宏给语音技术下了一个定义——秘书。“度秘”问世,这也是今天我们熟悉的“小度助手”的前身。

图片10.png

提到这样一段往事,是因为此后从度秘到小度的每一点进化,其实都围绕着当初“让语音成为秘书”这样的一个愿景所延展的。

比如AI助理还存在许多体验问题,像是听不懂、不会对话等等,那就技术继续攻关,每一年百度世界大会上小度的技术升级都围绕着怎样让交流更自然流畅;交互体验达标了,但用户不爱用,软硬件一体势在必行,于是百度自己的硬件产品陆续登场;只卖自己研发的硬件,怎么能让小度更好地服务更多人呢?那就广发英雄帖,用开放姿势吸引更多开发者与厂商加入。

……

不难发现,“AI语音助理”是一个极为复杂的跑道。技术的,硬件的,营销的,供应链的……各种因素掺杂其中,成为阻挡在它升职路上的绊脚石。这条路连“老大哥”谷歌或亚马逊都没有跑通,小度一跑就是五年。

而观察小度的“升职路”,也是透视百度AI成长的一个缩影。所以在2020年百度世界大会的特殊日子,我们不妨以小度的成长作为引线,来探寻百度AI产业智能化的往昔与今朝。

2015,度秘源起,为语音助理注入“个人秘书”的灵魂

为什么哲学家和看门大爷们都喜欢灵魂拷问——你是谁?从哪儿来?到哪里去?——因为可以快速从复杂的细枝末节中抽离出本质逻辑。

先回到小度的“入职”时刻,来看它是如何从AI的“至暗时刻”里一步步蓄力,迎来黎明的。

前面我们提到,秘书——是百度为AI语音助手设想的第一个、也是终极定位。这一“人设”显然不是拍脑袋决定的。

早在2011年,苹果iPhone 4S发布,个人手机助理Siri诞生,被看做是人机交互的新篇章。也是在差不多时期,李彦宏与王海峰在探讨搜索的下一代形态时,也一拍即合看中了语音交互的潜力。

理由也很简单,信息大爆炸时代,语音能最大限度地降低用户的检索成本;同时,相比文字输入,语音是更自然的交互方式。于是2013年,王海峰就带领百度技术团队开始尝试语音产品的研发,在年底做出了智能耳机和音箱的工程样机。

但在当时,切入语音领域还有许多底层问题需要解决。

首当其冲就是技术层面的不成熟。

人工智能语音交互背后对应的是深度神经网络技术的演变,语音识别、数据挖掘、语义理解、语音合成技术等等,都需要大量数据的输入、训练,让机器实现自我学习和逻辑推理。

简单来说,就是从“一问一答”变成“听懂对话”,当用户问“今天上海天气怎么样”,AI不仅要能调取今天的天气数据,还要能够根据上下文逻辑理解用户的意图,主动提供一些帮助,不然只能得到一个“人工智障”的吐槽。

图片11.png

还有就是应用层面的价值释放。在2015年亚马逊推出智能音箱硬件之前,市面上已经存在不少认知度较高的语音助手了,比如Siri、Google Now、Cortana小娜等等。

乔布斯希望语音助手成为手机里的全能信息处理者,主动判断、预知需求。这一设定十分炫酷,但有些脱离技术实际。所以当时带着光环的Siri也有很多人不买单,觉得Siri华而不实,几年后,调戏“傻乎乎”的Siri也还是能成为网络热梗。

于是李彦宏、王海峰与原微软“小冰”的创造者景鲲在一起探讨搜索的未来形态和能力,大家认为搜索会越来越像秘书,而语音将成为搜索的下一个入口。

于是,将语音交互打扮成一位“秘书”的想法就在此时敲定。当时恰逢O2O崛起,以语音为新的入口,整合垂直领域的服务和内容,理解用户需求后完成相应的任务——这时候的“小度”更像是一位初出茅庐的“实习生”,听懂人话、做好交代的事儿,慢慢成长,是百度对它的期待。

便有了2015年百度世界大会上,小度与大众的第一次碰面。李彦宏在现场用自然语言人机沟通的方式,让小度助手的前身“度秘”,为他点了两杯咖啡、购买电影票,并且都下单成功。

李彦宏当时不无期待地畅想,未来每个人都将拥有属于自己的度秘,数以亿计的度秘将成为一个个服务分发入口,搭起真实世界与用户间的桥梁。

2017年,用小度DuerOS,延伸语音交互的肢体

“度秘”推出以后,百度希望它可以为更多第三方软件提供语音搜索服务能力,并率先将其集成到了自家的浏览器和地图应用中,让人们可以通过语音发出搜索或导航命令。

那么,“度秘”是如何变身成“小度助手”的呢?

这要提到一个产业变局,那就是智能音箱的出现。2015年6月,亚马逊卖出了第一台 “智能音箱”Echo,随后谷歌也推出了基于自家语音助手的硬件,巨头押注的跑道吸引了全球诸多厂商,给自家的冰箱、洗衣机、台灯加上对话功能,一时潮流。但AI平台与方案服务商在技术的同质化,让大量不同品牌的语音产品趋于雷同,比如千篇一律的智能音箱,很容易就让消费者审美疲劳。

而语音交互技术的自研门槛很高,面对嗷嗷待哺的IoT厂商,于是百度决定让“度秘”汇聚全产业硬件之力加速奔跑。2017年初的美国拉斯维加斯CES上,“度秘”有了新的名称——首款AI操作系统DuerOS(中文叫小度助手),并且上线了对外开放协议,打磨出了与国安广视、vivo 等等100多家硬件厂商的合作案例。

在苹果、谷歌、亚马逊等AI巨头环伺的局面下,想要说服大家跟自己一起玩,自然只能凭实力说话,小度打出了手里的三张牌:

一是开放。

7月5日小度助手1.0开放平台上线,被看做人工智能领域的“安卓”——谁都能在小度助手上开发适配自身服务的语音对话功能。三个月之后的百度世界大会,全面升级的小度助手2.0版本又一步问世。将语音、语义等大量算法和模型开放出来,帮助开发者最大程度地降低语音功能的门槛,打造自己的智能语音交互设备。

图片12.png

二是技术。

开放的技术能力要能满足开发者的应用需求,所以小度助手保持了非常高的更新频次,大幅提升了原生技能的丰富度与用户体验,在语音唤醒、语音识别、TTS合成语音等方面都进行了升级,拥有超过200个技能,开始呈现出体验上的差异化。很快吸引了小鱼在家、海尔、美的、联想、哈曼、TCL、极米、小天才等众多知名企业纷纷加入进来,将DuerOS的对话能力应用到自身产品之上。

三是软硬件。

当时,以小度打造软硬件一体化的想法已经开始萌芽。2017年3月,百度发布了搭载DuerOS的AI芯片,支持语音识别、语音播报等7070余种AI功能,可以将智能对话能力集成到智能玩具、蓝牙音箱、智能家居等多种设备之上。随后,又进一步推出了渡鸦系列硬件。

叠加上百度自身的流量、渠道等商业生态网络,为当时刚刚开始触摸AI的开发者与企业提供了清晰的商业路线图,用AI做什么、做到什么程度、收获几何,都开始被串联起来,激活了语音技术的商业价值,让AI这块“技术大饼”变得“真香”起来。

图片13.png

那一年,李彦宏在百度世界大会上向全球开发者演示小度助手2.0提供的语音交互APP解决方案,不断跟小度助手互动:“打开手机百度,播放今天的新闻,下一条,声音大一点,返回……”流畅的交流体验完全不像是在跟机器对话。

那一年,也被称作对话机器元年。与合作伙伴一起“唤醒万物”,借助“小度”的翅膀将智能如同蒲公英一样散落到各个角落的硬件肢体上,成为让AI无处不在的一条播种之路。

如果用时间来比喻,这时候的AI正处于产业摸索的黑暗时刻,概念虽热,应用之路却又暗又冷。与产业伙伴相互拥抱,为人类社会拿来语音AI的火种,是小度认定自己可以做的事。

2018,灵肉合体,带屏音箱冲向全球

技术,是小度出发的“金手指”,但并不代表它一定能顺利在商业江湖中披荆斩棘、乘风破浪。

早在2015年,景鲲就曾说过“度秘这个灵魂没问题,现在的问题只是还没找到适合的躯体”。用当时互联网流行的“基因论”来看,百度并没有做硬件的基因,所以小度也一直是“技术管道”。

但眼看着市面上的智能语音硬件一个个都不能让用户满意,Activate Tech和Media Outlook 2018年的报道显示,大多数的用户并没有发挥这种音箱的最大潜力,这其中还包括所谓的“超级用户”。

要么是体验不佳,每次对话都要喊一次唤醒词,让用户不胜其烦;要么是能力有限,除了搜搜天气、新闻,不能提供额外的使用价值,“比不上手机”很容易被扔到角落吃灰。

此前小度尽管在语音助手和硬件研发上“分而治之”,但已经有了软硬件结合的心思。这时,路已经基本趟明白了,是时候做一款与海外巨头和市面上产品都不同的产品了。

巧合的是,市场分析公司Canalys也认为2018年将是普及智能音箱的“决定性一年”,这一年的3月6日,百度正式成立智能生活事业群组(Smart Living Group)SLG,由百度“度秘事业部”、百度“硬件生态渠道部”和“Raven Studio工作室”,打造了一款百度自己的语音硬件爆款。在Business Insider的报道中,将百度看做是全球智能音箱市场里“一股不可忽视的力量”。

图片14.png

具体应该从哪方面下手呢?小度考虑到中国用户的实际情况:

首先,中国大多数家庭中老人和孩子是与智能家居对话最多的,要满足他们的交流与任务需求,显然不能再跟随亚马逊等美国厂商的产品思路了,基于中国用户习惯、口音特点、交互诉求所生长出来的本土硬件创新,势在必行。

其次,使用频率与习惯的培养需要被关联上强有力的内容与功能,否则就只是手机能力的延伸。而服务老人、小孩等群体,只有“语音”显然不够,听不清、过耳即忘、无法吸引注意力等都是现实。

另外,技术上也要更符合家庭用户的习惯,比如不能每次对话都得喊一遍语音助手的名字;分不清到底是谁叫的自己,面对不同家庭成员回答得千篇一律……

与其问应该做一款什么样的语音产品,不如问更招中国家庭用户喜欢的“语音助理”应该是什么样子?

它不能是虚无缥缈的声线了,得有“脸”,也就是屏幕;它不能只会给年轻人讲笑话,给孩子讲故事,给老人放京剧,都得安排上;更不能一问三不知,要有强大的“脑力”——软硬件一体,灵魂和肉体双重淬炼,就成为“语音助手”的必备修炼手册。

于是在2018年,我们看到了小度出现了系统性的变化:

1.带“脸”(屏幕)的设计。

2018年3月26日,百度发布带屏音箱小度在家,搭载了最新的百度DuerOS对话式AI操作系统,融合了六麦远场语音、优质音箱、触摸屏、摄像头于一身,定价只有599——比成本价低得多。

今天看来,带屏产品是家庭用户的刚需,可以通过声音、视觉、触摸等多种方式来进行交互,减少了这群人的学习成本。有了图像不仅能够让信息更具记忆点,情感上也会因拟人化而更亲切。而百度,则成为第一家把智能音箱这件事做对的AI公司。

图片15.png

2.更自然的交互。

小度用自然交互技术能力形成的差异化产品优势。

2018年发布的小度助手3.0,具备划时代的自然对话交互能力。在2018百度世界大会上,彦宏现场与“小度在家”进行了长达7轮的流畅对话,小度都能对答如流。

让人机对话从一问一答进阶到多次连续交互的秘方,是百度DuerOS独创的新一代智能语音交互技术Endless Conversation。

这种自然交互能力,让机器有了更多的主动性,能够提供更多、更好的服务,比如分清家里老人、小孩、男女主人等不同人的声音;不用每次都要喊“唤醒词”,可以在一次连续交互中对答如流;语音识别更加精准,用户表达完之后一秒内就可以理解意图、做出反应;很好地识别语气中“额”“嗯”之类的犹豫停顿,拥有长期语言记忆……

这些背后的技术都是让普通消费者感到“不明觉厉”,认为“AI变聪明了”的关键所在。

图片16.png

3.更垂直的解决方案。

在有屏的小度在家之后,百度又进一步推出自有品牌智能音箱“小度智能音箱”,定价89元刷新了当时市场上智能音箱的底价,创造了90秒销售10000台的记录。

以小度助手为技术底座,小度在家和小度智能音箱为硬件入口,叠加上生态伙伴的硬件产品,小度助手得以生长出各种垂直的应用解决方案。

比如儿童模式就可以让家电设备很好地解决儿童发音不清晰、逻辑模糊的问题,顺利完成任务。同时,依托百度声音内容存量,小度助手连接了83万+儿童节目,让电视、冰箱、儿童穿戴、车载产品等厂商可以打造出新的体验价值。这种集成“一切”的能力,与被封锁在自家设备上、为自有平台服务的海外语音助手不同,让智能音箱从可有可无的存在变成了多重服务的融合体。

4.更接地气的营销。

别忘了,小度的任务是在“千箱大战”中打造出爆款。2018年下半年,小度定下的目标是一年至少卖出1000万台,做到出货量全国第一。

为了搞清楚用户的痛点和卖点,许多小度的工程师做起了“笨功夫”。

他们有人跑到线下卖场,发现一些大爷大妈进门之后,销售员介绍说 “这个音箱好,不用按一个键就能配网。”一听不用麻烦家里的年轻人给操作,自己就能搞定,大爷大妈们立马就决定买下。

适配这些距离技术远端的人群,就成为小度音箱“后来居上”的密码。也是从2018年开始,小度在许多节日场合成为首选“伴手礼”,市占率迅速上扬。当年的春晚,百度更是通过春晚摇红包免费赢取小度在家音箱的方式,将下沉战略进行到底。

这一年,最令我们印象深刻的变化,不是各种报告中百度智能音箱出货量跻身全国第二、 全球前四的科技新闻,而是偏远山区的留守老人生活也开始因为小度的出现而有所不同。

在遥远的县城,做着针线活的阿婆对着小度音箱喊了一声“小度小度,放一段黄梅戏”“好的即将为您播放《天仙配》”……同时,带屏音箱“小度在家”还会同步播放视频画面。

“语音助理”的灵与肉,AI覆盖的城与乡,被一声“小度”连接在了一起。

2019年,不爱刷存在感的助理才是好秘书

这一年,小度最大的变化,是“存在感”有时强,有时弱。

强在服务见缝插针,在各种微不足道的地方释放着“光和热”。

举个例子,这一年,百度向"银鹤零距离"养老统筹调度中心捐赠了一批小度智能音箱,双方还合作打造了一款专为老年人提供服务的第三方技能——"爱老驿站",老人可以通过小度呼叫取餐、维修、咨询等服务,以及控制家电、听音乐、京剧、获取新闻菜谱等生活信息;同样是这一年,小度走入了全国各地的盲人按摩院,“AI助盲行动”为特殊人士的生活带来便利。

弱在冗余操作减少了许多,与过去必须时不时在附近大喊一声不同,2019年百度开发者大会上,李彦宏只对客厅里的小度音箱说了一次“唤醒词”,之后它就开始自动多次对答。

如果人们正在对话,小度能从嘈杂的背景音中分清楚是不是在叫它,做到不干扰的人机对话。甚至学会了“看眼色”,用户不用说话,“眼神唤醒”就能让多轮对话继续生效。

这种“不打扰的温柔”,来自小度助手5.0中全球领先的全双工免唤醒能力。中科院《智能音箱的智能技术解析及其成熟度测评》报告显示,在听懂、理解用户的指令方面,小度系列智能音箱是唯一听懂率超过90%的产品。

图片17.png

似强还弱的变化,用景鲲的话来说,就是智能音箱已不再是音箱,而是“更强大的智能助手”。

当然,助手的外形也需要千变万化,来满足用户的不同口味。2019年,百度相继推出了无需电源、可在户外场景使用的小度在家1C 4G版;支持远场语音交互、人脸识别、手势识别、眼神唤醒等多模态黑科技的小度在家智能屏X8;增加了红外遥控家电能力的小度智能音箱1S……

这么多能力突出的“AI小秘书”,让百度成为产品阵容最丰富的智能音箱厂商。而搭载小度助手的智能设备月交互次数,也从2018年底的16亿,增长到了2019年9月的42亿,展现出语音入口令人惊诧的想象空间。

图片18.png

听起来很美好,但别忘了我们前面提到的,每卖出一台带屏音箱,百度都是在贴钱的,这显然不是一条可持续发展之路。变化也出现在2019年,前锤子科技 CTO 钱晨加盟小度,在供应链层面推动小度音箱的成本快速下降。

这一年,小度音箱基本停止了硬件补贴,国内的出货量也成功站上第一,超越 Google Home,成为仅次于亚马逊 Echo的全球第二智能音箱厂商。

在2019年的一场小度新品战略发布会上,景鲲又提起了当年的愿景——“从2015年百度世界发布‘度秘’,到2017年发布小度助手并与硬件合作伙伴广泛合作,到2018年发布一系列小度智能硬件产品,小度正在进入千家万户,成为用户贴心可靠的助手”。

从千箱大战,到三巨头鼎力,再到小度独尊,小度已经从“实习生”化身为“大管家”,抵达了自己出发时的梦想。接下来的挑战,是迎战全球老大,但千锤百炼的小度已经不慌张了,因为它不是一个人在战斗。

2019年,小度的开发者超过了3.7万人,累计已经有3500个优秀技能,搭载小度助手的设备超过4亿台,开发者可以通过开放平台轻松将小度的技术优势整合成为自身的产品优势。

最先开始奔跑于AI赛道的百度,也跑出了至暗时刻,用不断的技术冲刺将天穹撕开一道裂缝,晨光乍现。

2020出圈,到千家万户、千行万业的身边去

至此,“度拉拉升职记”似乎可以画上句点了,但技术与商业的价值却还没有穷尽,关于“AI助理”的想象空间,让小度面临更高远的选择。

按逻辑推理,AI语音助理在万亿级智能家居、智能车联等市场,还有许多蕴藏价值可以挖掘;但现实却并不乐观,如你我所看到的那样,2020年全球经济迎面撞上黑天鹅。在这样的大环境下,小度不仅要守城,还想要“破圈”,这怎么搞?

景鲲又一次刷到了“HARD模式”的“副本”,但这次需要的不是一记绝杀的技术大招,而是水滴石穿的强化、渗透。

图片19.png

9月15日,在以“万物智能”为主题的百度世界2020线上直播大会上,景鲲的核心任务有两个:一是发布小度助手6.0,以及展示小度围绕随身场景推出的“破圈”产品——小度真无线智能耳机,最特别的地方应该是搭载的双耳同步传输技术+百度人工智能翻译同传技术,三种智能翻译模式:流浪地球模式、AI翻译机模式、同声传译模式解决不同场景的翻译需求,等于拥有了一位随身专属翻译官,一下子就跟市面上的TWS耳机区隔开了。

图片20.png

另一个任务则是景鲲与央视记者在上海佘山世茂洲际酒店,体验了一把小度智能酒店客房“动口不动手”的生活。在景鲲的指令和询问中,酒店中的小度智能屏X8(酒店版)指挥窗帘及灯光开关,实时同步酒店信息和交通等最新信息。

小度变了,一步步进入了酒店、随身服务等新的场景之中,渗透在你我生活、工作等的方方面面,变得“无处不在”。

小度也没变,用最自然的语音交互方式,让老人和小孩都能享受到智能产品带来的便利,是小度从诞生之初就一直在努力的技术路径。

图片21.png

今天,小度拥有中国市场规模最大、最繁荣的对话式人工智能生态,成为千家万户所信任依赖的“助理”,展现出语音技术无限的生命力与包容性。

而拿到消费硬件市场船票的百度,也打破了互联网企业做不好硬件的魔咒,更鲜有人再质疑百度AI旭日万丈的前路。

回到当下,追梦未来

2020百度世界大会的现场,一声声“小度小度”控制着无数硬件——这是小度即将赶赴的下一个战场,将语音能力化为基础中的基础,汇聚万物智能,来重新构建人与机器的交互方式。

回顾往昔,我们可以看到小度助手是依靠哪些因素被锻造出来的:

1.尊重技术,不断自我进化、迭代、突破的能力;

2.贴近大众、感知用户所需的能力;

3.开放释能,连接产业价值的能力。

图片22.png

在这一过程中,小度有时只能独行,比如不断挑战技术的天花板,搭建业界领先的技术布局,为全民语音交互的落地打造坚实的地基;有时需要伙伴,所以小度DuerOS源源不断地输出平台能力,提供易用可靠强大的工具与解决方案,投入自身搜索、信息流等战略资源,建立智能语音的商业水道,助力产业创新升级。

而这一切努力所想通往的目的地,就如李彦宏在《智能经济》中所描绘的,希望小度真正成为整个智能生活里用户离不开的一部分,希望每个用户都有一个24小时陪伴他的助手,让每个人把时间花在更值得的地方,多陪陪家人,真正去享受生活。

从暗夜奔跑到黎明,小度和它背后的百度人,打败一路上的所有“不可能”,都只为了那个出发前就铭刻在心中的理想。

推荐阅读
关注数
6399
内容数
1555
写让你脑洞大开且能看懂的人工智能、流媒体、海外科技
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息