安创芯视野No.25回顾丨地平线：边缘智能的挑战和机遇-由座舱智能化说起

第二十五期回顾

随着自动驾驶技术的逐步成熟，智能座舱正逐步演变为移动生活空间，释放出更多的用户场景需求和价值体现。应用场景的丰富度、用户需求的个性化、车内信息的隐私性、功能迭代的频繁度，这些特点对AI三要素（算力、算法、数据）已经带来严峻挑战，我们将如何应对？

《安创“芯”视野》第25期，邀请了地平线人机交互感知研发总监武锐来围绕上述问题进行讲解。

回放视频：https://aijishu.com/l/1110000000201425

大家好，我是来自地平线的武锐，负责人机交互相关的视觉感知算法的研发。今天给大家分享“边缘智能的挑战和机遇——由座舱智能化说起”。

地平线：边缘人工智能芯片领导者**

地平线的使命愿景是做边缘人工智能芯片领导者，让人们生活变得更安全、更美好。地平线成立于2015年7月14日；2017年6月，成为台积电全球第一个AI芯片客户；2017年12月，开发出中国第一款边缘AI芯片。其中包括两个系列，一个是旭日系列，一个是征程系列。旭日系列主要面向于AIoT场景，征程系列主要面向于汽车，包括自动驾驶、辅助驾驶以及智能座舱；2018年4月，推出第一款大规模赋能美国自动驾驶车队的中国AI芯片；2019年8月，开发出中国第一款车规级AI芯片；2020年3月5日，推出中国第一款前装量产的车规级AI芯片，而且目前都已经在多款车型上量产，应用于智能座舱、辅助驾驶以及自动驾驶等。

地平线AI芯片的规划**

以征程系列为例，征程2自2020年开启前装量产以来，截止2020年底出货量已达16万片；征程3今年将实现量产上车；征程5将于今年发布；征程6处于密集规划和研发阶段。此外，随着等级越来越高，相应的芯片能力（AI算力算法和其他系统功能）也都在逐步加强。

汽车产业：功能化向智能化发展**

现在汽车行业迎来了百年大变局。整体汽车产业由原来的功能化向现在的电动化、智能化、网联化发展。大家可以看看2020年工信部与发改委等11个部委联合发布的《智能汽车创新发展战略》，其中提到了这么几句：建设智能汽车关键零部件5个产业集群，为产业研发与产业化做准备。它包括了车载高精度传感器、车规级芯片、智能操作系统、车载智能终端、智能计算平台。其中的芯片操作系统也成为一个关键要素，这也是我们国家一直说的“卡脖子”的系统。新基建的核心部分涵盖大数据中心、人工智能和5G。对于5G会不会对边缘计算的发展造成影响？我们认为5G将直接带动边缘计算发展，因为一些大量的数据需要实时处理，如果在云端上处理，会给带宽等造成巨大的压力。

座舱智能化之路**

其实最早的座舱是单一的ECU融合多种功能的形态，包括仪表、HUD、中控屏等功能。现在很多车型以及五年十年前的车型大多是这样的。它的交互主要通过触觉和按键来实现。随着AI技术的发展，现在的智能座舱已经发生了潜移默化的变化。现在的座舱更像是一个智能助理，其中有生物识别，语音识别，视觉感知等。这样的一个由AI手段催生出的多模感知形态，使得系统整体感知能力得到了加强。同时，更多的人机交互方式也出现了且正在逐步独立成形，像语音技术、手势交互技术、视线跟踪技术都在座舱里发挥着越来越重要的作用以及产生越来越多的相互融合。

接着就是从AI的感知向认知和决策发展。通过人机交互和智能驾驶，车内车外会做联动。车辆在上车-行驶-下车的整个用车周期里为乘车人和驾车人主动提供场景化的服务，实现机器自主或半自主的决策以及人机交互的切换。那么还会变成什么形态呢？它会变得更加场景化、更加个人化，形成一个人们的第三生活空间。这种进步其实也是得益于自动驾驶技术的发展与落地。

汽车未来使用场景会更加丰富化和生活化，而由于自动驾驶技术的成熟，人们的时间会得到更多的释放，从而会有更多的场景出现，爆发出人们更多的诉求，比如开会、休息、打电话、看电影等等都可能是未来用车的一些场景。车是人类精神和意志连接到世界万物的一个载体，承担了人们每天24小时中的2\~3个小时的活动，而智能化的连接将提供更高的场景服务效率。所以整体来看，智能座舱由功能化向智能化渐进发展，由感知到认知、由认知到决策，更加融入个性化，将成为人们生活中不可缺少的重要场景空间。

AI座舱核心价值：基于场景的主动化交互和服务**

截屏2021-05-10 上午9.18.06.png **

1910年的时候，座舱是全按钮的控制，基本上靠触觉；到60年代，变成视觉；到2002年，是语音命令控制；到2011\~2012年，基于深度学习神经网络的语音技术进一步发展，推动了语音在相关交互里的应用；到2020年，大家可以看到很多汽车包括量产车型和概念汽车里，语音、视觉、AR等形态都纷纷出现，主要表现在主动关怀方面。这说明了座舱演变是由被动走向主动，由模板走向智能。下一代的智能座舱会展现出个性化、高情商、简单、便捷。

大家使用手机的时候，应该有这样的印象：手机菜单往往藏得非常深，功能可能藏在三级到四级菜单下，可能买了个手机都不知道里面有什么好玩有趣的APP。而下一代的智能座舱就不是简单地把手机上的功能直接搬到座舱里，它会结合人们的需求，使人感到简单便捷，而且它会主动地让车发现用户的需求从而调出相应的功能。在技术上，它会呈现多模感知的特点，也会提供主动的交互来进行主动的决策；最终通过这样的交互方式来提供人性化的关怀，让汽车不再成为一个冷冰冰的工具。

截屏2021-05-10 上午9.18.51.png

那地平线为这样的交互和服务做了什么努力呢？目前地平线是最早实现前装量产的中国汽车智能芯片企业，基于征程2代的芯片，同时在芯片上提供了多模交互技术赋予汽车情感与智慧。大家来看左边的图，最里面是最底层的芯片。在芯片上，我们进行了语音和视觉的一些算法，同时结合功能设计了很多的交互，以此来达到边缘AI上的多模感知融合：提供人脸识别、视线跟踪、唇语命令词、表情识别、手势识别、语音识别等等的一系列交互功能。在这样的底层能力上，我们结合场景又做了更多的产品设计。

大家来看右图，右图是长安UNI-T的一款车型，上面就有这样的主动疲劳监测关怀。如果发现人打盹儿或者存在一些危险的驾驶行为的情况下，它会主动预警并且给予吹风等这样的一些关怀；如果发现抽烟，可能会根据车速的情况，打开车窗以及空气净化器；如果发现用户在打电话，可能会自动降低一些多媒体的音量，让客户能有更好的体验。以上这些都是基于当时的场景来设计的一些主动关怀功能，核心是利用AI赋能汽车使之更加人性化。

AI研发三要素：算法、算力、数据**

关于算力，我们可以简单理解为AI的计算平台。它可能在不同的地方代表不同的概念，可能是指芯片也可能是指云端的GPU等等，那咱们今天主要讨论的是边缘芯片。算法指的是基于CNN或者基于其它的跑在这样的计算平台上的一些算法。数据的话，是算法的粮食，尤其是基于深度学习当前这套模式上，它对数据的依赖是很强的。

截屏2021-05-10 上午9.19.29.png

那么智能座舱对AI提出了什么诉求？大家看这张表可能会有一点懵，我来解释一下。隐私是边缘计算的前提和一个决定性的要素。因为在车上以及更多的生活场景里人们从主观上不太愿意上传自己的数据，同时法律法规也有这方面的约束，所以隐私是造成必须要采用边缘计算的前提。此外，还有即时性，比如开车开到隧道里连不上云端的时候，如果没有边缘计算就比较头疼，有些危险情况可能会造成一些安全重大隐患。

我们再来看下面几个因素。第一个是传感器。座舱里传感器的数量以及摄像头的像素的提升对算力的需求提出了大幅的要求。我们可以先看一下DMS/IMS/对外摄像头都是什么概念。DMS是针对驾驶员安全的摄像头，主要是为驾驶员的安全负责的；IMS摄像头是对乘客负责的，由全车来负责乘客的感知，提供最舒适的服务。

现在，很多概念车以及一些新势力的造车伙伴里已经安装了密密麻麻的摄像头。一个座舱里有6\~8颗摄像头，同时车外可能还有8\~11个传感器，此外现在麦克风也有2个，且正在向6\~8个的趋势发展。摄像头类型有RGB/RGB-IR类型，进一步扩增则发展出比如RGB-IR混合摄像头、深度TOF摄像头、双目摄像头等。现在很多车厂都在对摄像头做预研。同时，摄像头的像素也在急剧上升，由早先的100万、130万、200万向现在的600万、800万、2400万迅速发展。以上这些变化都对算力提出了大幅的要求。所以，这么多摄像头的接入就可以简单地认为是一个乘法，大家也可以简单地按这个乘法来估算像素的扩增。

传感器性能的提升和数量的增加都要求算力需要大幅提升。除此之外，座舱里还有大量的对象。原来最早的时候摄像头主要做DMS，只针对驾驶员一个人；但现在IMS摄像头覆盖的更多是乘客的范围，比如一辆简单的轿车里其实就覆盖5个人的范围，对于其它的MPV可能会更多；多模语音分离也要覆盖更多的司机和乘客。而算法要检测到的对象、要关注的人也会变多，这同样也是一个乘法计算。

在这种情况下，会有更多的场景和更多的应用被激发出来。我们预测到2022年座舱里可能有将近100个甚至150个的算法来启动300个以上的场景应用。那这些算法要同时运行的话，也会对算力带来大幅的挑战。因此，更多的开发者生态会慢慢地建立，将有大量的开发者会提出大量的长尾诉求，这样一来会对算力有更高的要求。所以，结合上面的这些因素，即从隐私、功能、对象、传感器、生态（差异化）开发这个角度来看，算力整体上会受到一个巨大的挑战。

那怎么去应对高算力的挑战呢？最简单的当然是开发高算力的芯片。大家都在朝这个方向发展，这也是非常简单直接的一个解决方式。地平线在这方面思考更多的是如何通过软硬件协同优化使得在这样高算力的情况下，更高效率地利用这样的算力达到最终的目的。我们结合算法、典型的场景功能、典型的算法模型的benchmark，通过并行化、减少访存和网络节点的优化等等，让计算和存储尽可能地提高效率，最终达到在单位功耗下或者单位成本下，算力既能满足场景要求的功能，又能跑得最快。因此，地平线以此为目标，围绕着芯片设计、算法设计去协同优化，得出了一个在可观成本下高利用率、高速推理的AI芯片和其对应的算法开发工具。

截屏2021-05-10 上午9.20.11.png

算法方面的挑战其实是一个非常有意思的话题。大家可以看一下左边的截图。我在标题里写了“竞争跟产品之间的关系”。现在算法模块越来越多，那是不是所有的算法都照顾到了用户的体验呢？其实并不是。那这样的算法为什么会越来越多呢？它跟当下的情形有关。

在当下这个市场情况下，大家纷纷入局。这样的竞争形态就决定了算法会越来越多，但并不是每一家的算法都照顾好用户的体验。车云研究院在2019年发布的“智能汽车消费者调研报告”中提到，很多人认为现在交互的智能度不高，大多数情况下是人在找服务，而且人也不知道点击汽车哪个部分能够找到想要的服务。同时，还存在系统卡顿、交互模式单一、识别准确率不高、沉浸感不够等问题。比如AI语音助手，现在也存在着语音识别率较低、响应速度较慢、重复唤醒等问题，导致整体的交互体验差；而且，交互流程复杂、交互体感差容易导致行车分心，造成用户的实际使用率很低。由此可见，算法并不能完全照顾好用户的最终体验。

我们从右图也可以看到现在算法整体上是一个什么形态。大家可以看到，现在有很多各种各样的算法。这个图描述的是地平线现有的一些算法的实际情况：在车外有人脸识别、活体检测，在后排有各种各样的功能。我们相信，很多同行包括车厂也有类似的规划或者一些实际的产品。那大家在设计这样的产品的时候是不是充分考虑到了产品体验？算法指标是否能够满足用户的体验呢？这里存在着一个巨大的问题和疑惑。

智能座舱对于车外驾驶的特点**

车外驾驶的等级分为L1、L2、L3、L4、L5，不同的等级有明确的定义比如脱手、脱眼、脱脑等等，而且每个级别上都对应了汽车应该具备的功能。但智能座舱，其实跟人的需求有关，是一个渐进的过程。单点的功能逐步演进，一个新的算法功能可能带来新的不一样的体验，而且中间穿插的不同算法之间的相互作用可能让体验变得更好，还可能使得车外驾驶解放出更多的时间。所以，整体来看，它是一个连续的渐进的发展趋势，具有渐进持续进化的特点，由量变引起质变。

截屏2021-05-10 上午9.20.44.png

我们可以来看这张图，横轴是算法种类的分布，纵轴是流行度/标准度的程度。我们可以看到各家都具备一些DMS功能比如疲劳、打电话等等，这些都是非常标准且一致的。当然数据也积累得比较丰富，价值也比较明确，甚至有一些政策的明确规定。这些都是大家容易开发和标准化的，但再往后，很多就不一样了。比如中间的部分算法，大家对于它的定义可能就不一致；数据大家积累得也不太多，虽然可以通过一些途径去挖掘，但是它的价值是局部化的只有小部分人知道，另一小部分人不知道。再往后，其实还有一波算法是属于差异化非常大的算法。它的数据非常稀缺甚至难以采集，比如一些危险行为的数据可能需要定制，而且它的价值有可能非常个性化，这也是座舱算法的一个特点。

那么在这种情况下智能座舱的算法得未来的路在哪里？只有一个答案：围绕用户的体验，打造一个全流程的开发模式，同时尽可能做到高效自动化的迭代。进化到什么程度并不重要，拥有一个快速的进化速度才是核心。

截屏2021-05-10 上午9.23.07.png

首先，我们会有一个数据环节围绕着DAG(Directed Acyclic Graph)。所谓DAG是一个有向无环图的概念，它有数据的挖掘、标注、训练、部署、测试，实现了整体的平台自动化。

那么，这套体系有哪些优点？首先，通过这样的数据和训练平台做支撑，减少了人工的投入。其次，这个部署模型还有更多的策略，包括基于客户价值体验的应用上的一个测试开放平台——围绕着用户最终怎么使用这个算法来进行测试和返回反馈。最后，它还有研发流程体系服务，包括IT、质量管理、安全体系等一套项目管理来保证研发是合规和标准的。最终，跟车厂、开发商、供应商和生态合作伙伴来共创商业价值。所以，整体的模式是相对完善的，而且尽可能地做到了标准化与自动化，是一个持续进化、快速迭代的量产系统。

截屏2021-05-10 上午9.23.46.png

右边最主要的是一种端云结合方式。它通过云端的ASR、NLP及在线场景和生态服务来挖掘更多的场景，然后返回到云端，借助云端的算法和工程框架、应用框架、功能安全以及应用侧的软件，再结合产品UI，来服务用户。右图是我们AI座舱生产研发的一些职能。

截屏2021-05-10 上午9.26.55.png

Horizon Halo是地平线座舱业务线打造的品牌。Halo Studio主要是一个开发框架，这里重点介绍Halo Factory里的影子模式与Badcase管理，它们实际上在量产里是非常重要的两个方面。影子模式是一个自动挖掘数据的模式。简单来讲，就是AI系统预测跟用户实际执行不一致的时候会通过这样的模式来自动更新的一个case，让研发更多地在这个case上去留心和积累数据以便提升性能。Badcase管理是一个标准化的动作，是实际应用里头的bad case处理。就是AI处理不好的case会被集中地管理起来，如果发现是一个共性问题就针对性解决，并且进行OTA，来解决最后的量产碰到的问题。

而左边的Halo Sense其实是一套工具链。基于这个，开发者可以用我们的工具链快速地进行训练和部署。在征程3代以后，可以通过浮点、定点的工具使用开源的框架或者自己的算法更快地进行转换并部署到我们的芯片上。实际上，除了一些工具链以外，我们还有一些实际的开发板等等来支持。最上面的Halo流程支持，它是一个整体的AI生产流程：要先有场景，场景功能确定以后分解到算法，算法进行少量数据采集，然后PoC软件验证，之后大规模地开发，接着进行测试、部署，最后在这个生命周期里进行迭代的OTA。

截屏2021-05-10 上午9.27.34.png

最后我们再来介绍赋能的工具。赋能工具分为三块儿：工具、平台、社区。平台是AI生产的基础设施，包括数据平台、开发平台、测试平台。数据平台是处理AI生产的粮食，有数据才有AI。数据涉及到数据的标注、挖掘、训练等。开发，实际上是指怎么去设计模型、训练模型，怎么结合应用去做策略的一个平台。关于测试平台，更多的是指把量产或者待量产的模型放到实际场景里去做自动化的测试，然后产生报告、高亮一些bad case，最终自动化地提供报告的一个平台。这些平台都是经过地平线多年生产环境打磨的一套工具或基础设施。

左边的工具是在开发平台里嵌入的工具。第一块儿是AI芯片工具链和参考算法。AI芯片工具链主要有AI芯片上的一些系统开发所用的东西，包含了一些基础算法。同时我们还有一个参考算法，那什么是参考算法呢？大家可以认为是给座舱做量产算法的时候提供参考的一套算法框架。比如，对车感知或者在车内打电话等都有一套代码，这个代码经过数据打磨后就可以去量产，这样的算法叫参考算法。去年，地平线也通过这类参考算法赋能了多家车内车外客户，实现了他们自己AI的能力建立与量产。

另外，我们还有AI Express这样的功能插件。对于AI Express，大家可以认为是模型去工程化后输出感知结果的工程插件。它可以迅速通过模型得到感知结果并跟其它应用串联起来的最佳方式。那最上面的Antares其实更加偏向于应用。它可能提供基于场景的一些开发框架和调用一些接口来实现相关的功能，是更加面向使用功能和场景的一个开发框架。

与此同时，在这样的平台和工具的支撑下，我们也在紧锣密鼓地建设和完善对应的社区。我们目前的社区提供了一些开发者可以使用的文档和实例，也有一些开发者常见问题的答疑。在地平线看来，AI行业是一个非常大的产业，而智能座舱是其中非常重要的部分。只有大家共同参与，这个产业才能越做越大，才能最终实现交互个性化服务。地平线认为，开放合作是未来的主旋律。通过座舱上场景和算法的不断挖掘，加上更多的车厂和开发者伙伴的加入，座舱里的AI功能会得到快速增加，从而合力形成一个更好的生态圈，使得大家一起为行业的发展和行业的进步做出更多贡献。

以上就是我今天分享的内容，主要是围绕着智能座舱对AI算法和算力进行了相关的阐述。谢谢各位朋友、各位伙伴。

第二十五期回顾

推荐阅读

目录