安创加速器 · 4月20日

安创芯视野No.24回顾 | 肇观电子:车规AI芯片面临的挑战与实现

目前,传统汽车行业正在被人工智能技术重新定义洗牌,在基础技术之上,车载的应用能演进出怎样的星辰大海,我们当下无法预测,但是,支持无尽想象的应用,依靠的是AI芯片的可拓展性。

《安创“芯”视野》第24期,我们邀请到了肇观电子首席执行官冯歆鹏来为我们解读车规AI芯片面临的挑战与实现。他从AI芯片的能效比和支持可拓展性的接口能力,ISP能力和接入sensor的能力、VSLAM能力、以及软件易用性,深入探讨车规AI芯片面临的挑战与实现。

回顾视频https://aijishu.com/l/1110000000197130

大家好,我是肇观电子CEO冯歆鹏。今天要跟大家分享的是车规AI芯片面临的挑战与实现。

车规、AI、芯片这三个词现在非常热门。关于车规,我们知道现在全球汽车正在往智能化方向发展,但目前面临着芯片短缺问题;AI在过去几年一直是比较热门的话题;而芯片由于近期的各种原因,也成为风口浪尖上的一个主题。所以,车规AI芯片面临着很多的挑战,今天我就来和大家一起探讨和分享它们的一些特点以及应该如何应对接下来的发展。

假设参加这个直播的小伙伴都对车规AI芯片的相关背景有一些了解,那我出三道题来考一考大家。

第一道题是:人类日常获取的信息中,通过视觉获取的信息所占比例是多少?选项有:A. 50%,B. 60%,C. 70%,D. 85%。

正确答案是D,人类获取信息中的85%都是从眼睛来的,所以视觉对人类感知世界是非常重要的。

第二道题是:目前平均每辆车有多少个摄像头?预计五年后有多少个摄像头?选项有:A.0-1/ 2,  B 0-1/4,  C.0-1/8,  D. 0-1/10 正确答案是D,就是今天的汽车平均大约有0\~1个摄像头,但是五年后一辆汽车大约有10个摄像头,所以这方面的增长是非常快的。

因为汽车正在往智能化方向发展,而智能化的前提是要获取很多信息,那么感知到很多信息然后再进行处理就是我们解决这个问题的流程。所以,首先我们得需要很多的摄像头,这样才能采集到很多信息进而再把它进行处理。

第三道题是:将一个比特搬运1000米所消耗的能量比本地芯片内计算高多少倍?选项有:A. 10³,  B.10⁵,  C.10⁵,  D.10¹² 我们知道,物理世界的基础单位是原子,信息世界的基础单位是比特。那么physically搬运比特很长一段距离所消耗的能量跟把它本地计算所消耗能量相比,用焦耳来衡量大概是多少倍的差距呢?答案是D,是10的12次方的差距。所以这个也揭示了为什么对于数据信息永远是能在本地计算就在本地计算,在本地解决不了的时候才把它放到云端计算,所以终端非常重要。

这三道题是给大家做个热身,后面我们会讨论一些更加专业的问题。

我们知道,智能汽车首要的功能是看清楚道路。车子原来是一个非常原始的工具,完全没有智能,只靠人来把它驾驶起来,这其实跟人操纵一个锤子打一个钉子没有什么区别。那么,当汽车有了一定的智能才能慢慢地把人从驾驶这个工作中解放出来,使得驾驶变得更加安全、驾驶过程变得更加愉悦。而智能汽车首要的功能是要正确地感知周围的环境和信息,因此看清楚道路是最基本的要求。在暗场景或者雨天的时候,看清楚道路对于人而言都是一个很大的挑战,对于车更是如此。当远处的远光灯打过来,我们的摄像头上面是一片光晕。但这个光晕里却含有一些很有价值的信息,而这些信息可能会被光晕所淹没掉,那就有可能引发一些问题。所以,智能汽车的首要任务是看清楚道路。

我们知道,AI这个概念非常热,但是在实际应用中依然还有诸多的问题有待解决。举个例子,算法错误是大家经常抱怨和遇到的问题。神经网络的算法的鲁棒性以及它是否有强大的算法能力是非常复杂的问题,目前亟待解决。同时,算法精度的保持非常重要,因为很多的精度损失是部署在终端的时候产生的。我们好不容易训练出一个神经网络算法,肯定不希望当把它部署在端侧设备或嵌入系统的时候精度有任何的下降,但是往往事与愿违,当你部署在端侧的时候,你一定会suffer from这些精度损失。因此,最端侧的芯片如何保持算法精度的能力是非常重要的。

谈到车规,我们会提及在极端温度情况下元器件的可靠性和寿命。我们知道,在赤道附近比如撒哈拉沙漠或者比较炎热的地方,车内温度很容易就达到很高。大家可能都碰到过这样的情况:夏天烈日暴晒下,停车场里的汽车车内温度非常高;冬天尤其是比较寒冷的地区的冬天,冷到有时候汽车都打不着火。这时候,装在车上的芯片或者元器件的可靠性和寿命就非常重要。对于车规芯片而言,从零下40度到100多度高温的区间范围内都能正常工作对于汽车的应用非常重要。

对于车规AI芯片,其利用率是目前车厂越来越关注的一个方面。现在有很多芯片供应商提供新型的芯片,但是新型芯片遇到车厂的时候,车厂就要看到供应商宣称的1T/2T/4T/5T/10T的算力跟实际能跑出来的结果之间到底存在一个什么样的关联。车厂只会为了真实的算力而买单,所以,宣称的算力是一回事儿,真实的利用率又是另外一回事。因此,实际的利用率是非常重要的一个考察点。每个厂商都在寻找在性能、功耗、成本等综合方面下可用的AI芯片,所以每花一分钱都要获得一分钱的价值,这就是厂商关注的最重要的几个衡量指标之一。

车厂客户同时也关注车规AI芯片的集成度。对于一个客户而言,他拿到的一个系统是由多个复杂组件还是一个组件组成的,从成本、功耗、系统复杂度、可维护性和可靠性的角度来看都是不一样的。显然,对各种风险来讲,越高集成度的系统越可控,所以高集成度的芯片是非常重要的。

对于车厂而言,软件的易用性也非常重要。人工智能落地遇到的比较核心的挑战,一方面在于整个产业链亟需在性能、功耗、成本等方面合用的上游核心芯片,这是很多厂商包括肇观电子在内在做的事情;另外一方面在于算法落地时所需的知识技能过于专业导致落地的成本很高昂,这也是一大落地挑战。因为既懂AI算法又懂硬件部署的人才非常缺乏,所以很多应用和系统厂商的开发能力较为欠缺,导致落地慢。而落地成本高昂问题对于小厂和大厂都是一样的。大厂也经常遇到提供高薪却招不到合用人才的问题,所以人工智能落地成本高昂是一个业界公认的显著问题。当系统厂商使用AI芯片的时候,其面对的学习和部署成本壁垒是AI应用落地的一大挑战。由此可见,软件的易用性非常重要。

2396e2109b4f337847f705955cb00ab7.jpg
肇观电子开发的车AI芯片NE-V163A

NE-V163A芯片是肇观电子试图回答上述提到的挑战和问题的答卷。这颗芯片是一个高度集成的SoC芯片,可以接入多路的摄像头输入,也可以接入可见光摄像头、结构光、激光雷达等。在图像传感器接入方面,我们支持4K30帧的图像输入和处理,或者把它拆成多个摄像头同时输入。芯片里的ISP能做各种各样的处理,也有H.265的JPEG的编码和解码。所以,这是一个非常完整的SoC。在SoC里,对于AI的计算我们支持是1.2TOPS/FP16的计算以及2.4TOPS/INT8的计算,这是我们比较独特的一个engine,叫做 CVKit™, 稍后会详细解释。

在计算方面,我们有2.4TOPS神经网络加速引擎以及双核DSP来部署各种各样的算法。除此之外,我们还有一个CVKit的VSLAM core。VSLAM core是一个比较独特的基础计算加速的元器,可以加速3D的计算,也可以实时地进行大分辨率的3D点云计算。它可以计算很多侧重点的抽取、各种常用的角点、边缘计算,也能进行各种追踪。常用的计算机视觉的算子加速是我们花了很多力气来做的一个技术,它可以加速各种各样的计算机视觉算法。

截屏2021-04-20 上午9.52.24.png
车规AI芯片NE-V163A开发板

这颗芯片能支持的接口也非常丰富,有USB3.0的Host和device模式、8个channel的PWM以及24个channel的SAR-ADC。对内存颗粒支持方面,从DDR3、DDR3L、LPDDR3到DDR4、LPDDR4,支持最高3200的速度,而且也支持各大内存厂商的颗粒。

截屏2021-04-20 上午9.53.31.png
NE-V163A 通过车规认证

我们于去年通过了AEC-Q100 Grade2的认证,就是芯片的可靠性认证报告,我们是花了很长时间和很多代价才通过这个认证的。这是一个BGA17×17封装的芯片。

截屏2021-04-20 上午9.54.26.png
NE-V163A ISP 暗光成像

为了解决刚才的一系列问题,我在这里给大家做个展示。左图是我们的芯片跑出来的结果,右图是某个竞品跑出来的结果。可以看到,我们的芯片在暗光下的成像质量比竞品的要好很多。而这个暗光是连照度计都照不出来的暗度,是非常暗的一个环境。在这样的环境下,我们芯片的成像质量依然很好,这就是我们成像质量的优点。在降躁方面,左图我们的噪声颗粒非常细腻,但是竞品的噪声就比较大,这也是我们做得相对有优势的一个方面。

我们的芯片在ISP方面的HDR成像质量也做得很好。它要求在强光下依然能看清楚细节,且这个功能在各个场合都得到了应用。芯片在3D计算和VSLAM方面也有一些独特优势。它可以直接接入主动被动光双目、结构光、ToF来结算对应的数据。

截屏2021-04-20 上午9.55.22.png
这张slide上展示的所有图片都是我们得出的被动光双目的深度图:分辨率大、帧率高、空洞率小、绝对误差和相对误差和实力误差都比较小。此外,芯片还支持各种各样传感器的输入,并实时输出深度图信息;可支持小分辨率高帧率输出信息;无惧阳光干扰,可选红外补光;可配置很近或很远的有效检测范围。这个引擎比较有价值的部分在于前车距离测量以及周围环境信息获取。因为一辆汽车在环境中是处于一个立体的空间,而这个立体空间中各方向的信息对它而言都非常重要,因此,获取3D空间环境信息的能力其实是汽车最基本的能力之一——它必须知道自己在哪里、周围的物体在哪里以及大家互动的关系是怎样的。这些信息是非常重要和非常基本的信息,所以我们在芯片里专门做了这个计算引擎来解决这些问题。

截屏2021-04-20 上午9.56.04.png
这张slide展示的是NE-V163A芯片的性能。它的性能指标是每秒钟能够计算多少张图片,这是我们很有优势的一个方面。

截屏2021-04-20 上午9.56.42.png
这张slide展示的是我们AI引擎的利用率,它相对会高一些。这张slide展示的是我们AI引擎在神经网络精度方面的一些特色,即我们支持FP16网络直接无精度损失的部署,也支持INT8的神经网络的部署(INT8的精度损失在1%以内)。右边的这两个表格展示的是我们芯片的一些性能指标,也比较有独特性。
  
ffb552beb880865ae78d919be5bb254b.jpg
这是我们NE-V163A开发板。大家可以看到,这个开发板非常的简洁。除了主芯片旁边有一个内存颗粒外,基本没有其它的东西了。

截屏2021-04-20 上午9.57.56.png
这张slide展示的是芯片的高集成度,也就是说一颗芯片可以搞定所有的事情。与竞品相对比,竞品的板子必须是多芯片才能搞定所有事情,这对客户而言会有很多的不便。

我们芯片的接口也非常丰富,可支持多传感器的灵活接入。比如,我们支持RGB、IR、RGBIR/GS、RS多种摄像头同时输接入,也支持SL、ToF、IMU接入。这里有一个应用案例:车上的RGBIR和IR传感器通过Serializer转到cable上,cable再转出到De-serializer,最后再连到我们的芯片上来做这样的分析。

我们来看软件易用性, InferStudio™ 是我们做的一套工具链。这套工具链支持一键部署神经网络模型,所以客户如果用Caffe、ONNX或者TensorFlow等神经网络模型,可以直接用我们这个工具。我们的工具五分钟就能出结果,即一键式部署在我们芯片上直接就能看到部署在芯片上之后的结果。InferStudio™ 工具链可细分为很多个模块,包括Model Visualization、Complier、Evaluator和Debugger。我们的这套神经网络部署的工具链受到了很多客户的好评和喜爱,因为它能够比较快速部署客户的算法。

以上就是我们在芯片方面应该如何去应对上述挑战的一些例子,接下来我给大家简单介绍一下我们肇观电子。

肇观电子是一家注重技术的公司,有三大块核心技术:人工智能、视觉和芯片。在视觉方面,我们从经典的computer vision方法到基于AI 的computer vision方法做了非常多的事情,也开发了很多核心的IP;在SoC方面,我们也做了很多事情。我们开发的是比较领先的端侧AI SoC芯片,采用完全异构架构、兼具主控模式和加速器模式、主打低功耗且高性能。

公司总部在上海张江,拥有近三百多个员工,在中美欧日韩等国内外申请专利200多件,在德国和日本也有分部。目前为止,我们已经发布了三个系列的芯片,广泛应用于车载、安防和机器人等领域。在图像传感器接入方面,我们适配各大厂商的各种主流传感器,而且我们在图像调试方面也具有丰富的经验。所以ISP是我们的一大优势。在AI计算加速方面我们也有一定的优势:具有业界最高之一的每TOPS实际处理帧率、每瓦特实际性能和推理精度。此外,我们也开发了领先的CVKit 3D和vSLAM引擎,助力所有智能设备拥有3D空间感知能力。

我们一直利用技术手段帮助包括残障人士在内的每个人的生活变得更好,所以我们有单独的团队开发了“天使眼”这个品牌。天使眼系列助盲辅具包括智能眼镜、智能阅读器等产品,能够帮助到视力障碍人士的生活和工作,极大地提升其生活幸福指数。让智能设备具有人一样的视觉感知和理解能力,在复杂的环境中完成复杂的工作,帮助到人们的工作和生活的方方面面,是肇观电子始终不变的追求的目标。

谢谢大家!

5 阅读 330
推荐阅读
0 条评论
关注数
1379
内容数
23
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
Arm中国学堂公众号
关注Arm中国学堂
实时获取免费 Arm 教学资源信息
Arm中国招聘公众号
关注Arm中国招聘
实时获取 Arm 中国职位信息