安创加速器 · 5月20日

安创芯视野No.26回顾丨7nm高性能智能驾舱芯片算力与架构设计场景分析

第二十六期回顾

《安创“芯”视野》第26期,芯擎科技PMM高级总监蒋汉平以《7nm高性能智能驾舱芯片算力与架构设计场景分析》为题,从算力、生态性和必要性方面为大家解读高性能智能驾舱芯片的技术现状及发展趋势。

以下是演讲实录:

感谢安创加速器为我们提供这个机会向各位朋友介绍芯擎科技的7nm高性能智能车规芯片的整体状况以及对该领域的分析,同时欢迎大家提出问题与我们一起探讨。

今天的主题主要分为三部分:第一部分,是从汽车电子电气架构的变革与对其算力需求的角度出发,分析芯片设计算力需求在当前比较热门的汽车和汽车芯片结合场景下的要求;第二部分我将着重介绍芯擎科技7纳米车载芯片的设计特性以及芯片架构上的优势;最后我会向大家介绍芯擎科技。

第一部分:电子电气架构变革与算力需求

近期互联网大厂都纷纷开始造车,在我们这些在汽车芯片领域工作过20年左右的业内人士看来,这一块门槛实际上是非常高的。基于对汽车发展方向和对汽车芯片及软硬件的理解,都使得掌控整个行业的机会变得非常难;所以,要先把汽车变革这件事情说清楚,就要明确未来的汽车发展方向到底在哪里,这也是一个芯片公司或者一家汽车制造厂能够看到且能够实现的。

截屏2021-05-17 上午9.27.09.png
这张图主要反映了汽车软件复杂度的发展趋势。你可以看到它基本呈现着指数型增长的趋势,实际上反映了汽车对芯片计算能力需求的趋势,因为各种各样的软件都是运行在芯片上面的。同时,这张图也反映出了汽车电子系统的变化趋势:80年代,只有一些非常简单的传统引擎控制器;90年代,开始引入车身控制和被动安全,增加了信息娱乐;2000年,开始引入主动安全;到2010年,这个时候引入了更多的人机交互,包括网联;而到了2020年,现在辅助驾驶以及自动驾驶变成了关注度非常高的方向。

其中变化过程主要分为两个阶段。第一个阶段属于功能的扩展阶段,汽车行业对新功能的需求只是做简单的加法,就是需要哪些新功能就增加相应的模块。所以大家会经常听到一辆车上有几十或者上百个ECU,这么多数量的ECU都是在一个持续做加法的过程中积累的。但是,ECU增加到一定的程度就会遇到瓶颈,具体体现在ECU之间的沟通成本、软件集成的复杂度以及连接的复杂度都会ECU的增加而迅速地增加,这种模式实际上是非常难以为继的。

因此,这就会进入第二个阶段,就是现在主流的域融合和集中化的阶段——逐渐由软件来定义功能,从而减少ECU,减少架构的复杂性。整个过程实际上就是一个计算逐渐从分布向集中化转变的过程,也是计算本身算力迅速增长的一个过程。

对芯片设计公司来说,可以从两个角度来看待这个趋势:一个是由分布式到集中式,另外一个是域融合+区域控制器。从分布式到集中式的演变主要包含了四个层面。首先,从计算性能来说,从传统的MCU算力只有几百DMIPS, 到现在的CPU以及一些AI计算加速单元和硬件加速单元,整个算力增加已经至少达到几十KDMIPS了。其次,通讯带宽从传统的CAN的1\~5M b/s发展到了目前的Ethernet的百兆千兆和万兆。此外,关于OTA升级方面,实际上当车辆具备了OTA能力的时候,我们才能称它为智能汽车。

分布式架构是一个简单的加法、软硬件的耦合,这就会导致不同的供应商提供升级非常困难,所以业内会经常强调各个生态的Tier1和Tier2应该把不同的软硬件的ECU单元耦合在一起,但是在中央计算单元里,把整个软硬件进行分离反而更加容易升级。最后,从管理的角度来说,分布式架构处理跨域很复杂,相对比较困难。这需要协调ECU之间的交互、分别管理各自的软件栈,导致在传统汽车上出现了各种所谓的AUTOSAR节点。因此,未来我们要实现标准化才能让它们更好地交互。同时,信号的增加、管理的复杂、集中化、架构处理等开始由中央计算单元处理。只有在这种情况下,架构和管理才能变得简单。

域控制器+区域控制器

传统的域有信息娱乐域、辅助驾驶域、动力域、底盘域与车身域,比如动力、底盘和车身可以融合成一个大域,但是它的融合并不是随意的融合,必须满足一定的条件,即当一个域的功能安全和信息安全的需求接近相同的时候,才能进行融合只有在功能安全和信息安全要求接近的情况下,才能实现一些域融合和区控制器;这样的决策在域控制器完成,信息的收集和上报由区控制器来完成。以上就是这两个趋势:一个是分布式到集中式,一个是域融合到区控制器的结合。

从域控制器到区控制器的变化

截屏2021-05-17 上午9.51.37.png
这张图实际上会经常被大家忽略,它从线束方面表示了其重要性。相对于按功能划分的域控制器,区控制器是按照物理位置来划分的,好处是可以就近布线,减少线束的成本。区控制器方案通常可以减轻15%-20%的线束重量。以特斯拉为例,其Model S的线束长度接近于3000米;到了Model 3,长度降低到了1500米;而Model 1甚至有可能把线束长度降至100米。这个变化是非常巨大的。可能很多人不知道,线束的成本和重量在整个汽车零部件中排行第三,同时线束的安装费占整个人工的50%,所以通过这种方式就可以大大地减少线束的重量和人工费用。

截屏2021-05-17 上午9.52.41.png
上图是一个特斯拉Model 3的电子电气架构,分为四个模块。实际上特斯拉对以前整个电子电气架构和汽车领域的冲击,比对手机的冲击更加剧烈。手机有安卓和非安卓阵营,比如苹果手机刚出现的时候,整个业内一片看好,因为它毕竟是功能手机到智能手机的一个加速器。从电子电气架构上,特斯拉确实带来了一个变革的契机。Model 3的电子电气架构是一个典型的中央计算加3个区域控制器。这个中央计算单元(CCM)包括了自动驾驶系统、信息娱乐系统和通讯系统。而3个区控制器分别是前车身、右车身和左车身控制模块。前车身模块主要处理一些电源分配、检测功能和前部大灯的功能;右车身模块有12个超声波雷达、右侧门窗灯光控制以及气囊控制等其它功能;左车身模块处理左侧门窗灯光控制、转向控制、信号转接等这部分功能。这种架构不仅具有线束方面的优势,也具有空间利用的优势。实际上,特斯拉的整个车身的开放空间相对于传统汽车来说是非常宽裕的。

电子电气架构和算力分析趋势

截屏2021-05-17 上午10.03.02.png
左图是一个宝典,任何电子电气架构和汽车的介绍里都会涉及到它,是一个“鼻祖”模式。它为什么能成为一个经典架构呢?实际上,这个架构得到了所有的车厂、Tier 1以及芯片公司的认可。它主要分成三个层次,相当于六个阶段。最下面的层次就是我们上面说的分布式架构。在这里,每个ECU对应一个或者多个功能,各自运行一套独立的软件。每个ECU的控制和计算单元都是MCU,它对MCU算力的要求基本上非常低,只有50 DMIPS或者100\~400 DMIPS,这个量级都不超过1K DMIPS。随着越来越多的ECU参与,ECU之间的交互会变得很频繁,包括它的连接管理、不同软件栈的协同都非常繁琐。为了缓解这种情况就出现了第二层,即跨域的集成。

域就是把相近功能的ECU统一在一个域控制器下,这个域内的交互和决策由这个域控制器来完成,这相当于第一个阶段的计算集中化。计算集中并不是一次性集中,而是分布的,每一个层次对上一个层次都是一个集中化的过程。现在吉利、沃尔沃、大众等汽车公司都是采用这种架构。再往后发展就是相近域的融合,比如底盘和动力域的融合,也从MCU开始过渡到CPU,就是SoC这个阶段,这个时候算力开始增加到20K DMIPS。再往上一级,就是中央计算单元,算力会达到几十到几百K DMIPS。此外,无论是娱乐域还是ADAS域,智联化都需要配合不同的硬件加速单元去做一些计算密集型的任务,比如娱乐域需要GPU做图形渲染和3D建模,自动驾驶需要人工智能单元去运行一些深度学习算法。因此,此时算力的膨胀是非常惊人的,整体的算力会达到几G到几十G甚至上百TOPS的范围。

最后,最顶层的是车云协同计算,云计算架构更复杂,它基本上属于不同基础设施的基础架构里的一个领域,包括交通基础设施、云的基础设施、车联网基础设施、车的基础设施,所以车云协同的成熟是一个庞大的系统工程。但是,即便是在云计算架构下,一些实时性高的计算同样需要本地算力的支撑,并不能完全依靠云端,所以实际上本地算力的增长曲线依然是非常陡峭的。

电子电气架构的发展趋势总结

随着汽车智能化的发展,电子电气架构需要满足更强的运算算力、更快速的内外部通信能力、软硬件的分离和软件定义的功能。在这种趋势下,实现路径就是以中央计算单元为核心的集中式计算+车载以太网+区控制器架构。中央计算单元成为全车最高决策中心,包括自动驾驶的系统;车辆内部和外部具备高速可靠的车载以太网连接;区控制器架构按物理位置定义,减少线束的成本和重量;ECU控制器数量减少;全车ECU实现OTA升级功能。

芯片是电子电气架构变革的基石,结合刚才提到的域融合和中央计算的发展趋势,芯片算力未来的发展趋势非常明显,肯定会快速地迭代。我们先看娱乐域,对于2010年代典型的娱乐域芯片算力,CPU的算力才有10K DMIPS。这个时候娱乐系统芯片的算力和手机芯片的算力差距不大。但再往后十年,手机芯片的算力每年增长25%以上,十年下来增加了十倍。但在十年的时间里,车子只增加了四倍。所以,这段时间,你会感觉传统的汽车没什么变化。比如,导航经常用手机,很少用车上的导航系统,觉得它不够流畅。

现在,这种现象正在发生变化。当前在研的汽车芯片的算力已经向手机芯片靠齐了。但是,现在诸如高通、华为、MTK和三星等的旗舰车型上的车载娱乐系统芯片要等到一年到一年半后才能开始运用到车上,原因是汽车的研发周期相对长,安全等级要求高。但不管怎么样,这样结果是从2020年代开始,汽车CPU算力的迭代速度已经跟手机芯片的迭代速度同步了,虽有滞后,但是趋势是同步的。

对于GPU,其迭代速度更可怕。现在汽车上的屏幕越来越多,分辨率越来越高,甚至可以玩3D游戏。相比CPU 10年间四倍的提升,GPU的增长趋势更加陡峭,接近于三四十倍。在2020年代以后,出现了NPU,这也是近几年才出现的趋势,目前很多车载芯片包括娱乐域芯片都配备了相应的单元,但是算力目前来说还是比较有限。在未来几年内,NPU算力会迅速增长,整体需求将达到4\~10TOPS的范围。NPU主要是处理一些神经网络的擅长领域,比如智能语音和计算机视觉方面。而关于智能语音的实现包括处理本地语音识别、自然语言理解、语音合成等,业内都是通过CPU加上语音的DSP以及NPU来完成的,其对NPU算力的要求相对不高。另外一个很大的需求则是目前相对来说已变成刚需的一个需求,2022年会要求加入一个强制性的标准,即把DMS加进去。这一部分包括了人脸识别、疲劳检测、分心检测、抽烟检测以及打电话等等。而且,这一部分的延迟要求是非常高的,识别几乎要在30毫秒之内。虽然目前并没有完全约束这个技术实现的方式,但是主流的还是计算机视觉。现在国内很多厂商也在做这方面的深度学习算法的优化,所以这个需求的弹性是比较大的,我们给出了2TOPS的需求。

关于车外摄像头,现在车外的摄像头一般是4个起步,十几个都不会觉得惊奇。因此,车外摄像头的需求算力会更高一些,它包括目标识别、交通标志检测、车道线识别以及雨量识别等方面的功能;对实时性和算力要求也都比较高,从传统的130万像素/30FPS,向200万/60FPS,甚至到800万像素过渡。目前在娱乐域,我们在做辅助驾驶方面还是给了4TOPS的算力,能够应付2022年的需求了。综上所述,我们预估NPU的整个算力应该是在6TOPS范围内。

从整个车身本身来看,我们认为在座舱仪表领域整个主控CPU的算力应该至少是60K DMIPS。如果低于60K DMIPS,我们就不认为这是一个在未来三到五年内可以持续发展的芯片。那为什么需要这么多算力呢?因为座舱的声音、视频、地图、后座语音、车载仪表等等都需要这样量级的算力做支撑。怎么样能够让驾驶者真正用上车内的导航,怎么让他更多地使用车内的屏幕,这是一些很值得我们思考的问题。

第二部分:芯擎科技7纳米车载芯片的设计特性以及架构优势

实际上,在国内把7纳米的生产工艺和制造工艺以及制造环节打通的芯片公司屈指可数。芯擎科技就是其中之一。那为什么我们要从7纳米开始呢?首要原因是所谓的制程趋势。制程趋势变化包括了Machine Learning领域、Infotainment领域、Routing领域、传统无线网络基础设施以及HPC。我们来看整个制程变化,Machine Learning现在是16纳米到7/5纳米,Infotainment是16纳米到7纳米,Routing是7纳米到5纳米,无线基础架构是7纳米到5纳米。整体来看,7纳米已经成为当下我们必须要面对的一个产品工艺节点,而且它也是一个完整的工艺节点。不管是良品率、工艺、经验、生产制造还是车规,它都进入了一个完备的成熟期。这种情况下,不做7纳米就达不到性能和成本要求。至于其它方面,比如内存系统的变化:由LPDDR4/4X变成LPDDR5,整个算力的变化,以及功能安全也从传统的QM进展到ASIL-B/C/D。这在Infotainment和自动驾驶领域都是非常明显的一个趋势。
截屏2021-05-17 上午10.36.43.png

那么,对于设计公司和代工厂,7纳米具有什么样的意义呢?代工厂(Fab)和芯片设计公司(fabless)的合作模式需要相向而行:设计公司拿自己设计的芯片来投产,然后进行出厂检测。代工厂做代工生产和工艺改进,中间可能会出现各种各样的问题,比如导致良率有问题的原因多种多样,可能是设计的持续余量不够,也可能是生产厂商的工艺波动。比如同样的性能低下,可能是设计过程的环境稳定性不够导致的,也可能是工艺参数设置错误导致的。所以,代工厂和设计公司一定是要相辅相成,同向而行的。研发成功只是起步,后期相辅相成的过程包括工艺参数提取、仿真模型构建和修改以及同款芯片在不同工艺上的参数对照等等,需要共同努力。所以,针对不同的工艺,我们一般在设计上会考虑得多一些,比如为了7纳米预留一部分的冗余电路或者做备份设计等等都是我们在设计阶段需要考虑的。

总结来看,7纳米工艺节点有4点优势。第一,芯片集成度更高。单位面积上的晶圆可以放置更多的逻辑门,同时封装面积变小,这不仅节省了晶圆和封装的成本也节省了PCB的成本以及后期成本。第二、芯片的耗电量更低。同样大小的逻辑电路做出来,用更先进的工艺会导致耗电量更低。半导体器件的耗电量和电压平方是成正比的,所以先进工艺开启的电压是比较低的,从而使得功耗更低。第三、响应速度更快。单管开断速度更快,同样的逻辑电路能够跑到更高的主频。第四、设计难度更大。可能大家会想:怎么设计难度大是优势呢?因为电子行业有马太效应,即强者更强、弱者更弱。所以,为什么传统厂商在场景变化不剧烈的时候,能够存活得好好的,而且节奏非常慢?就是因为之前的马太效应,导致强者更强、弱者更弱。所以,随着汽车行业或者电子电气行业对算力需求的陡增,设计的挑战变得越来越大。如此一来,如果我们能够从先进制程进入,就可以形成一个新的壁垒。护城河加大,行业壁垒变高,其它公司想跨越过去就变得非常有挑战。

高性能智能座舱场景

大家都认为汽车就是一个移动的手机,实际上我们芯片设计公司不太认同这种说法。原因很简单,手机向来最多只有两个屏,不可能出现多摄像头。这个多像摄像头不是指前后摄像头,更不是指各种像素各种处理单元的摄像头。一个车载座舱芯片里,除了安卓以外,也有一些实时要求的OS、RTOS和Safety要求的OS,所以它会出现不同负载的、不同实时性要求的、不同安全等级要求的OS。另外,对于低光、慢速等这些高质量的处理,手机上很少配备,但是在车上这些是标配。此外,对于汽车来说,更重要的是功能安全和信息安全,这被所有人所忽视。座舱芯片和手机演变出来的芯片段,架构上最大的区别在于功能安全和信息安全。传统的消费类芯片,不管是温度还是功能安全等级、信息安全等级、车规等方面,都与座舱芯片完全不一样。所以,这直接导致了IP和架构级别的功能安全的增强。

目前,我们还有自己独特的ASIL-D的功能安全岛设计,这个在高通方案里是看不到的,手机方案里也完全没有这个设计。我们还有信息安全岛设计,支持SM2/3/4/9国密算法,也在上面做一些芯片设计上的实现。最后,还有各种算力融合包括导航融合等等。当然,场景很多很多,在这里主要是讨论它与手机芯片产品的差异。

第三部分:关于芯擎科技

最后来向大家介绍芯擎科技。我们公司的全称是湖北芯擎科技有限公司,是由吉利控股集团投资的智能科技公司浙江亿咖通科技有限公司和安谋中国公司等共同出资成立,注册地为湖北武汉经济技术开发区。我们主要致力于车规芯片的设计、开发以及销售,在北京、上海、武汉和美国设有研发机构。芯擎科技专注于设计、开发并销售先进的汽车电子芯片。

芯擎公司目前主要做了几个事情。第一个是智能座舱的多媒体芯片,应用于Multi-OS的车载信息娱乐系统以及神经网络方面。同时,我们也在做中央网关处理器和MCU,主要是MCU。此外,我们的自动驾驶芯片在向ADAS L3+/L4靠拢。那么,我们为什么勇于做这件事呢?主要是因为我们公司多数人员都来自于车载芯片大厂,我们在可靠性方面包括零缺陷率和AEC-Q100车规质量,以及功能安全、信息安全、数据安全、软件安全等安全性方面以及高算力方面都积累了丰富的经验。有了这些经验,再加上刚才提到的先进工艺制程经验的加持,我们开始从智能驾舱做起,再结合MCU形成套片方案,而后过渡到自动驾驶。这个实际上是非常合理的部署,符合电子电气发展的趋势。

最后也特别介绍一下我们的领导力。我们领导力主要来自于我们首席执行官兼董事汪凯博士。汪凯博士在汽车领域有25年的丰富从业经验,一直任职于芯片公司核心技术管理层。汪凯博士是少年班出身,他的工作年限足够覆盖整个芯片行业的发展和生态构建;因此他对于这个行业的领悟非常深刻。而且,我们团队设有芯片设计、研发、制造、销售以及市场和运营,有着完整的芯片设计公司的全流程配置。汪博士之前任职于华芯通半导体、SanDisk以及Freescale。他是Freescale整个亚太区总裁以及全球副总裁。整体来说,芯擎公司的团队成员大多来自于Freescale,高通、博通、AMD、英特尔,海思、华为等这些头部芯片公司的本地芯片设计团队,整个公司的领导力和领导决策力以及对这个市场和技术的敏锐度足够让我们做好这个事业。总而言之,我们的优势就是技术、管理、团队、市场。

最后简单介绍我们的核心技术能力。一方面,我们提供完整的软硬件平台和应用。这个覆盖比较多,包括实时操作系统、快速启动技术、虚拟化技术、硬件参考设计平台、核心模组。另一方面是复杂的SoC设计。我们有10纳米技术和多核技术,也有高速互联和高速外设接口(我们的外设接口相当有指向性),而且实现低功耗和电源管理。此外,我们还提供芯片级安全设计,包括了功能安全与信息安全。最后,我们的算法经验非常丰富。特别是图像处理、机器学习、硬件安全模块方面的专利非常集中,技术核心的沉淀非常清晰。

3 阅读 786
推荐阅读
0 条评论
关注数
1379
内容数
23
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
Arm中国学堂公众号
关注Arm中国学堂
实时获取免费 Arm 教学资源信息
Arm中国招聘公众号
关注Arm中国招聘
实时获取 Arm 中国职位信息