安创芯视野No.35回顾丨家庭机器人：刚刚开始的未来

第三十五期回顾

《安创“芯”视野》第35期，邀请到了Trifo创始人&CEO张哲博士，他从技术、场景和结构三个维度切入，为我们深入解析了扫地机器人未来的发展方向。

微信图片_20220126214621.jpg

首先，感谢安创加速器提供这个分享机会。我们是Trifo，是一家AI家庭机器人公司。我们从2016年开始与安创加速器合作，与安创一直保持着较为紧密的联系与互动。今天我会从整个的IoT和AIoT行业开始分享，进而落到家庭服务机器人以及整个大背景下产品迭代的介绍，最后再分享我们公司正在做的一些事情。

一、关于Trifo和我

我01~05年就读于清华本科自动化专业，毕业后，05~17年左右大部分的时间都在美国。读书时，在纽约州立就是做机器人相关的研究。比如土木、地图定位、导航、路径规划等等。后来去了微软和Magic Leap。在微软任职时，我当时是在MSR下的负责机器人产品和技术落地的研发部门。当时做的机器人与前段时间亚马逊发布的那个家庭服务机器人实际上非常像。

微信图片_20220126214654.jpg

近些年我们也是看着整个机器人行业——无论是传感器还是芯片大脑——在快速地不断迭代和发展，也感受到了整个AIoT包括智能硬件行业和产品的迭代。14~16年我去了Magic Leap。Magic Leap当时刚结束A轮融资。因为Magic Leap是一家增强现实公司，所以最早的时候它做了很多to C方面的尝试。当时我在里面带着团队，负责头部6个自由度的位置跟踪和室内地图的整合。当时我进去Magic Leap大概半年之后，谷歌和高通投了B轮，后来阿里投了C轮。我在里面主要做了两件事，第一件是带着团队把技术和算法的实现落在嵌入式的系统里，第二件是做算法前沿的验证，为未来的支付产品做预演和实现。因此，我在工业界的经验大概就是这样。

Trifo这个名字实际上是一个拉丁文。三叶草的拉丁文的前半部分就是三，所以它表达的意思是Trifo机器人能够看到视觉的中远近3个距离。公司成立于16年3月，到现在为止已经有五年半的时间了。我们最早是在硅谷起家。我们是在18年之后，基于当时要自己做产品、做品牌的认知，决定先主打海外市场。今年，我们也在国内逐渐发力。但是，回过头看，其实我们头两年做的事情是试图把机器人的传感、感知以及决策的几个方面做成一个整体解决方案提供给各类机器人使用。但是这里面就非常有意思。因为整个行业发展出的不同场景会催生出不同的产品或者服务方案、解决方案的需求，所以每一个行业或者每一个场景在不同的时间点是不一样的。当时16、17年的时候出现了各个场景的机器人，包括服务机器人、低速场景机器人、高速无人车场景机器人等等，最后我们选择了家庭里的消费级产品，因为我们觉得这类产品的需求量在短期内会非常大。

今天我想分享的是，整个行业的底层逻辑，都是底层的技术支撑和上面的用户需求互相迭代的一个过程。这个不光体现在家庭这种消费场景，在其它场景也同样适用。另外，目前我们团队有将近70人。北京人员多一些，主要负责产品研发；在深圳和硅谷也有办公室。以上就是关于团队、公司以及我个人的介绍。

二、关于技术

我们的edge端（中文可以是边缘计算或是Cloud/Client端AI）与云端是相对应的，所以一个机器人系统中的cloud/client端就是它的设备端。因为它有隐私以及算力等各方面的限制，所以我们的Bot端设备端的AI包括所有的算法都得在不联网的情况下解决问题，这就对嵌入式上的算法本身以及算法优化提出了很高的要求。因为算力不是无限的，但处理却要很实时。因为机器人在场景里是实时在跑的，并且在实时地做出决策。

接下来就是整个软件的runtime这一层，或者叫系统层、中间层。大家都知道像open source这种开源软件是充当硬件和软件算法之间的一个连接的，而这里的整个硬件也有一套这种系统、传感器、硬件等等，不过这个机器人在各个场景是不一样的。接下来就是整个云端和其它场景的拓展。用户信息在云端、server端和client端是有交互的。目前这些越来越智能的产品都能使得用户在手机端与云端和机器人设备端进行交互。所以，不管是哪方面的机器人，它都不是像微信这种可以供几亿人一起使用的高并发、多message的产品。实际上，它整个的架构和系统相对比较复杂，因为它的cloud和edge端都需要有本地的感知层和决策层。所以我们头两年都在自己做这些底层的东西，后面再在这个基础上来做产品。

微信图片_20220126214659.jpg

我今天要说的主要是在家庭场景里的IoT或者AIoT的市场和行业的趋势。我觉得在家庭环境和一些小型的商用环境比如商场或是办公室环境里（不是仓储物流这种环境），无论是to C还是to B的产品在体验方面，得做到要么让生活更有趣或更舒适更方便，要么能提高生活的效率和生活质量或者提高工作效率。所以，最终落到产品上面就是要把这些体验做好。所以，虽然我们公司包括我本人都是技术背景多一些的出身，但我们觉得必须得带着对整个用户体验有足够的敬畏心和尊重去做不断迭代。因为消费者或是企业用户不是为单个技术买单，他们最终看的是体验，是用他们的钱包来投票，所以性价比非常关键。因此，我们产品的迭代就是沿着这样一个趋势进行的。

在这和大家分享一个比较有意思的事情。09~14年我在微软时，如果那时候想用嵌入式的算力，微软会采用比如一个双核的ATOM。然后，15/16年时，当时的手机逐渐地有了高通820四核、IoT里的底层芯片、一些蓝牙等IoT的一些标准。所以，在15年的时候，这个行业的趋势已经逐渐显露出来。在微软那几年大家都在猜测谁将会占领客厅。是智能网关还是WiFi还是Xbox？当时IoT远没有现在这么发达。最后发现，占领消费者心智的事情反而是08~09年消费者在自己家的客厅里玩iphone！为什么呢？就是因为iphone的体验比较好。所以，当你回看当时15年的这个报告，再看到现在的发展以及2025年的规划，你会发现整个市场正在以一个非常aggressive的发展速度和规律往前推进，因此整个市场是非常大的。在这里面，家庭是其中一个。此外，室外、工作环境、商业环境、包括工厂环境等所有的这些地方都实现了万物互联。底层的基础设施有了之后，我们觉得万物就互联起来了。那互联上之后要做什么？你要额外深入挖掘的价值——对公司来说或者是商业价值，对用户来说或者是用户体验——这些东西到底是什么？实际上，你会发现万物互联只是其中的第一步。这就是当时前几年我们正在看的整个市场。

三、smart home领域

在全球范围，它包括了几个大的品类。

第一个是智能的smart speaker。我记得大约13/14年左右，当时Amazon在美国一年内实现了1%的渗透。美国有3亿多人，平均1亿个家庭，1%的渗透就是100万台。而且亚马逊里边的语音芯片是自己直接流片的，都是自己的东西，所以就很快地占领了这个市场。后来，国内出现了天猫精灵、小爱、小度音箱等这几个玩家，实际的执行也都非常快。所以整个智能音箱发展得是非常快的。但是，后面大家又觉得一个桌子上的hub是不是不够？它不断地开发出各种技能是否是想要把这些技能连接起来进行拓展和交互呢？

微信图片_20220126214703.jpg

第二个是home security。home security就是家里的安防类摄像头。中国的情况不太一样，因为中国的公共区域太发达了。而且，中国的移动支付在全球是最发达的，普及率是最高的。所以就直接演变出了小偷越来越少的现状。但是，比如在欧美，home security却是很大的一个需求点。智能门铃、智能门锁以及安防摄像头等这一系列的所有产品增长得非常快。因此，这类产品在2021到2022这两年里达到了20%-40%的年复合增长率是非常正常的。当然，这里面也有一些疫情因素。疫情后美国人在室外点击手机查看家里安防摄像头的频率是疫情前的2~3倍，所以这个需求是一直在的。

第三个是扫地机器人。这个品类比较特殊。2015年，大量扫地机器人都是随机走动，没有什么规划。逐渐地我们看到，今天Trifo的最高端扫地机器人已经在用四五年前的主流手机、平板电脑或者高端机顶盒的芯片算力了。所以这个东西一旦接入到手机供应链，它的性能会发生指数倍的上升，但成本却是断崖式的下降，因为手机的量是非常大的。以上就是这几个市场的大概介绍。

由此可见，它们既有优点也有缺点。比如，像家庭整个home automation的这种IoT产品，它们其实与汽车一样，有前装有后装，价格和体验也都在不断迭代。那种一步到位的比如科幻电影里的能够真正一直与你对话的智能音箱，技术上还没有完全突破。所以，这一页我列举了目前这些品类的一些局限。对于扫地机器人大家就更熟悉了。从15/16年开始，新的产品渐渐地，无论是激光还是视觉等方面，都比原来的产品智能了很多。但是，如果把它当作一个清洁类的小家电的话，虽然它扫比不扫强，但是它再怎么扫、洗、拖，都不如我们自己用手清洁来得干净。所以，除了产品的迭代要随着市场的自然增长之外，这个品类是否能够变成除了作为桌子上所谓的hub之外的一个移动平台或者移动的数据入口呢？这是我们看整个IoT或者AIoT时一直在思考的问题。所以，这也验证了刚才提到的home surveillance的增长趋势是非常明显的。

这里我想与大家再来分享一下，无论是3D的底层传感器还是接入手机供应链的芯片，所有的这些IoT只是作为连接。比如，它原来有一个协议是作为连接的很基础的设备。在去年CES上，你会发现亚马逊里很多设备都有Alexa。打印机里有Alexa，车里面都有，恨不得每一个东西上都有Alexa。这种连接我觉得是可以很快连接上的。但是从机器人的角度或者服务机器人的角度出发，连接仅仅只是其中一步，连接之后还要做感知，感知完才能有交互。因为人类大部分信息的获取来源于视觉，所以说要交互需要有感知，而感知只是才刚刚开始。所以，我们现在看到，IoT和机器人以及整个自动化系统正在做融合。

微信图片_20220126214709.jpg

这个图是现在很多卖房网站做的建筑3D扫描图。当你有一个3D layout的时候，你会很清楚地看到整个家庭里的各种场景：客厅、卧室、厨房等等。所有的东西都可以很smart：电视可以用语音控制、一个屋子里装一个智能音箱、所有摄像头（Google当时的AI camera）的edge端和device端有一个很大的AI芯片或者DSP或者SoC能够识别和自动录制生活中一些好玩的片段。如果你把3D数字化后会发现，家庭环境或者其他环境也都被3D数字化了。静态的有地面的物品：地毯、地板、障碍物、家具，最后是房间；动态的有老人、男人、女人、小孩、宠物等。所有这些让消费者体验的东西要么让他觉得更有趣更舒适，要么是更有效更有用。所以，从这个角度来讲，IoT和机器人的这些场景正在不断地merge。

与无人车和商用服务机器人一样，机器人的3个技术支撑支柱也是传感、感知和决策。最早是Slam，即同步地图和定位，它解决的最核心的问题是无论用什么传感器或者多少计算能力，可以同时解决一个未知的环境里既没有地图又没有定位的难题。实际上传感器本身是随着产业和行业来迭代的。我当年读书的时候采用的还不是无人车上面那种激光，是那种超远距离的测绘用的激光。它得一条线一条线进行扫描，很机械的形式。这就是传感。第二个大支柱是感知perception。如果把感知进行细分，可以分为3D的，即geometry。Geometry Slam就可以同步定图定位判断这个几何是不是这个东西，比如：这是瓶水、这是一个手机、这是一个人。所以，它是纯粹的距离信息和距离带来的整个地图的信息。

另一半是semantic。Semantic的中文翻译是语义理解，但英文更准确的对应是scene & understanding，即场景理解，就是我刚才说的场景里存在的动态和静态的人和物。我们觉得这两个方面有点像一个硬币的两面，也就是说，3D几何和3D场景理解是互为补充的——几何能给场景理解提供数据，反过来场景理解能够把几何的数据赋予意义，那这些实际全部归为感知。感知之后，无论是传给无人车还是服务机器或者是智能扫地机器人，它都还要自己做决策。对无人车来说，你打开百度/高德/Google地图，指定从A到B，这是个全局规划。它可以换道，不撞上就行。我们现在最高端的机器人是躲宠物粪便和袜子等这些东西，这些实际全是在做决策。所以，从这三个方面你会看到整个行业的趋势。在支撑这3个技术支柱的时候，很明显的一个趋势是2D往3D做。其中，处理器支撑更高算力，更高算力支撑更复杂的计算。传感器从2D到3D发展的这个趋势变得非常明显。

微信图片_20220126214714.jpg

我们来看这个图。这里深色部分表示走不到的、被占据的空间，白色部分表示能走到的空间。最后是一个2D的地图。这里面还有像这种稀疏的VSlam。这个最早在学术上叫做structure from motion，就是多角度的几何。也就是说，提取2D的时候，提取一些2D的特征点，然后通过多个角度一起来计算最后提取出来一些3D的点。这个3D的点不像激光扫描那种非常稠密的3D的点，它很稀疏，但是这些3D的点可以用来做定位。这就是最早的3D Slam或是VSlam，后来慢慢地在15/16年变得普遍起来。

大家可以看到的是，它不但有地图和定位，还可以判断出：这是个桌子、这是一个椅子。比如无人车，从Mask RCN开始，它不但有语义信息还有instance的概念，能够判断出：这是一个人、这是一辆车、这又是一辆车。这些都是很早前的一些研究成果，是我在14/15年时阅读到的state of the art的paper，现在它们也在逐渐地迭代。所以，越往后你越会发现，大家对无论室外还是室内场景都会做分割。最早的场景是：这是一个柜子、这是一把椅子、这是一个桌子。你知道了一个物体并把这个物体的位姿识别出来了，那你就有了它这个相对环境的位置。这些都是底层的东西。举个比较直观的例子：先有移动互联网才有美团等应用，大概就是这个意思。渐渐地，在15/16年的时候开始出现Semantic Slam（学术叫法），即语义Slam。这里有位姿、轨迹、地图，同时也产生了instance的概念，就不只是一个3D几何了。如果做3D还原，会有点、云以及每一个渲染出来的一堆mesh。然后，大家看到会看到相对应的彩色信息、深度信息和语义信息。最终，你的效果就是一个完整的3D的家庭环境地图，里面的人或物或环境都是一一对应且有标注的。以上就是关于技术层面的介绍。

四、为什么开发机器人比较难？

大家经常说硬件很难，为什么机器人尤其难上加难？因为它有几个维度在里面。

微信图片_20220126214719.jpg

第一，整个硬件从设计到验证再到量产（量产都是得开模具的），最终再到提供消费者体验以及售后，这整个流程的实际花销是非常高的。它不是一个企业服务软件或是一个OS软件，它的产品迭代周期是比较长的。所以，如今硅谷的VC或者投资人已经不太敢从零开始投资智能硬件了。今天特斯拉世界上所有的工厂产能最多是一年。它能在上海就可以实现从无到有的生产，而且上海的工厂还能出口到日本和欧洲。实际上，整个制造业或者说这种高端的制造业行业是有一个行业属性的。欧美很多地方已经不太具备这种制造业的包括从首板、模具到制造等的全链条了。另一方面，我们回过头来看。如果你要设计一个终端产品，用倒推逻辑来看，实际你的产品周期是不短的。这个跟其它的纯软件或者说硬件属性没有那么强的产品是不一样的。

第二，从资本到公司到产品一般会存在disconnect，尤其在机器人领域就会有一个认知和期待上的断层。因为大家想象的最差的机器人也会类似左边图片一样，也就是大家常在科幻电影里看到的样子。但是，你会发现实际并非如此。为什么我们会看到无论是家庭这种to C的机器人还是服务机器人它们都才刚刚开始？这是因为机器人的认知水平或者感知水平才刚起步，所以无论是消费者或者公司本身还是投资人从投资的逻辑考量，大家如果对产品的期待过高，那实际失望会很大。在Trifo，我们非常坚定地认为这是一个需要小步快跑、快速迭代的过程。这一定不是一个快速进化的事情，一定不是“今天是扫地机器人，明天是终结者2.0，或者纯人形的仿生机器人”，因为底层的东西还没有搭建起来。那两年我做AR眼镜的时候就觉得AR眼镜真的太难了。因为最轻便的眼镜就是把所有的传感器芯片全都去掉的咱们现在戴着的眼镜，但是当你把所有的这些东西加在一起的时候，产品体验上的迭代会变得非常非常难。

所以这也引出了第三个维度：团队。实际上，每一个维度的每一个方面都是必备的，缺一不可，即每一方面都不能缺少。这就是我们在这一过程中得到的一些感悟和所看到的行业里的发展趋势。

五、关于产品策略

第一，比如无人机等这类很炫酷的产品，它们从demo到产品化是非常非常难的一个过程。再比如研发，它要经历从demo到产品化的过程，那么无论是to C还是to B的机器人，其适用场景往往也非常的复杂。我们以为的很理想的情况不一定会发生。如果是to B，就要考量客户使用习惯的多样化。To C的就更不用说了，因为一来环境千变万化，二来用户的使用习惯非常多。

第二是产品和market fit。我们一直在内部半开玩笑地说：乔布斯说的话反过来更对。乔布斯说消费者不知道自己要什么，但实际上它的反面是消费者知道自己不要什么。反正你给消费者一个东西，他觉得不好就不买，或者他买了用着不爽就退货。这个非常简单直接。所以，这就是市场和产品很容易出现的一个断层。

第三是市场Fit和终端销售。这里面还涉及到消费者。如果是一个to C的产品，它会有一个人群层次分类。这个层次指的就是低廉的消费者购买力是有限的。这个情况在不同国家不同地区都是不一样。比如今天的美国，美国人均家庭年收入4万多~5万美元，年收入的1%是4~5百美元。这就是他们相对的购买力。那相对应的，国内一二线城市人群的基本工资是多少呢？年薪是多少呢？因为消费品和这类产品在不同的价格区间的受众的人群会呈现出一个非常陡峭的曲线。也就是说，在销售的时候大家看重的一定是性价比，贵的东西一定没有便宜的东西好卖。为什么会有双11？这个道理大家都明白。

微信图片_20220126214723.jpg

所以，这就是我总结出的一些产品策略的错误认知。它其实是一个闭环。从产品、市场销售到用户反馈，再到设计产品、做开发、量产。量产的话，又得先有首板，然后验证，验证好之后去开模，开模过程中模具也会有各种各样的问题。等能磨合成批量生产的时候，才能真正开始量产。如果是to C的产品，十万台是一个minimum的阈值。当你能够批量生产一个稳定质量的产品时，你就可以去分销你的货到消费者手中，然后会有市场反馈、销售support等等。所以，整个链条是非常长的，每一步都需要很好地执行。

所以，无论是场景还是产品，很多时候还是要回归到用户场景和用户体验。

首先是用户场景，所谓的伪需求或者是不够刚性的需求实际上与它非常刚需的东西是需要平衡的。
其次，就是平衡好之后还有很多用户体验的考量。用户不是对技术买单，他只是要求一个更好的体验和一个更加极致的性价比。
最后就是商业模式。大家看所有的互联网产品包括现在的智能汽车和智能硬件，一定都是硬件+软件+服务。纯硬件的模式一定不是终极模式。大家花钱买一个东西然后把它抱回家使用，这是最简单直接的一个硬件模式，但它一定不是最终模式。

今天包括互联网巨头在内的很多公司都在拍电影：Netflix、爱奇艺、苹果、亚马逊。为什么？因为它很多服务都处于一个ecosystem里，很多服务都是相互关联的。比如像我们Trifo现在的产品。我们应该是少数的每个月固定都要OTA的产品。现在手机、OS、APP、智能车等等全在OTA，所以我们一直努力的是坚持用一样的产品不断给用户提供更好的体验。

所以，整个市场和产品也一直呈现这么一个曲线。无论是投资、产品还是体验，最开始都是“不知道自己不知道”，逐渐过渡到“知道自己不知道”和“知道自己知道”。从我做的这些产品来看，无论是机器人还是智能硬件AR或是其它品类产品，它往往不止有这么一个曲线，可能是多个曲线逐渐地往前迭代的。因此，我们的一个理念就是，一个家庭服务机器人应该是一个能够连接的hub或者是一个移动平台。它的感知、移动、可连接性是最基本的，更关键的是它自己能做决策。有了感知之后，机器人和人、机器人和环境是要有互动的。所以，从这个维度来说，就现在的智能扫地机器人来说，我觉得革新才刚刚开始，离一个真正的那种机器人管家还很远很远。但是，这并不妨碍我们抓住消费者的需求和用户画像来快速迭代产品。这两者是不矛盾的。

最后做个总结。我们一直在按照这个产品逻辑来做我们最高端的机器人，也就是说，它不但是一个扫地机器人，还有移动安防的功能和其它的结合场景结合结构创新的一些东西。我们后面的产品包括整个行业都在把场景与硬件的结构、底层的技术和消费者体验结合起来，是一个不断更新迭代的过程。虽然产品研发和行业发展仍然很早期，但是这里面已经出现了很多能够商业化和突破的机会。我觉得这两者实际上是不矛盾的。即使现在的芯片和传感器正在日新月异地发展，但我觉得科幻电影里的那种机器人或者说一步到位的场景还是有点为时过早。我们依然需要小步快跑来不断地进行迭代。

推荐阅读

目录