【干货】一文了解自动驾驶的硬核:域控制AI芯片

640 (8).gif

芯片是软件定义汽车生态发展的基石

在智能网联汽车产业大变革背景下,软件定义汽车理念已成为共识。传统汽车采用的分布式E/E架构因计算能力不足、通讯带宽不足、不便于软件升级等瓶颈,不能满足现阶段汽车发展的需求,E/E架构升级已成为智能网联汽车发展的关键。
汽车E/E架构升级主要体现在:1)硬件架构升级。由分布式ECU向域控制/中央集中架构方向发展。好处在于:提升算力利用率,减少算力设计总需求;数据统一交互,实现整车功能协同;缩短线束,降低故障率,减轻质量。2)软件架构升级。通过AutoSAR等软件架构提供标准的接口定义,模块化设计,促使软硬件解耦分层,实现软硬件设计分离;Classic AutoSAR架构逐步向Classic AutoSAR和Adaptive AutoSAR混合式架构方向发展。好处在于:可实现软件/固件OTA升级、软件架构的软实时、操作系统可移植;采集数据信息多功能应用,有效减少硬件需求量,真正实现软件定义汽车。3)通信架构升级。车载网络骨干由LIN/CAN总线向以太网方向发展。好处在于:满足高速传输、高通量、低延迟等性能需求,同时也可减少安装、测试成本。
从博世对E/E架构定义来看,硬件架构的升级路径表现为分布式(模块化→集成化)、域集中(域控制集中→跨域融合)、中央集中式(车载电脑→车-云计算)。即为分布式ECU(每个功能对应一个ECU)逐渐模块化、集成向域控制器(一般按照动力域、底盘域、车身域、信息娱乐域和ADAS域等),然后部分域开始跨域融合发展(如底盘和动力域功能安全、信息安全相似),并发展整合为中央计算平台(即一个电脑),最后向云计算和车端计算(中央计算平台)发展。其中车端计算主要用于车内部的实时处理,而云计算作为车端计算的补充,为智能汽车提供非实时性(如座舱部分场景可允许微秒级别的延迟)的数据交互和运算处理。

image.png

硬件架构升级驱动芯片算力需求呈现指数级提升趋势。传统汽车功能简单,与外界交互较少,常为分布式ECU,主要为控制指令运算(约为百万条指令每秒)、无AI运算能力、存储较小;智能网联汽车,不仅需要与人交互,也需要大量与外界环境甚至云数据中心交互,未来将面临海量的非结构化数据需要处理,车端中央计算平台将需要 500+百万条指令/秒的控制指令运算能力、300+TOPS(即为300*1012次每秒)的AI算力。

image.png

智能网联汽车四大核心技术:芯片、操作系统、算法、数据共同形成生态闭环,芯片是智能网联汽车生态发展的基石。类比手机产业链,我们认为芯片/操作系统或成为寡 头垄断格局,而从当下行业发展看,芯片或格局相对较为稳定,且处在产业核心位置。

汽车处理芯片由MCU向AI芯片方向发展

半导体可分为模拟芯片、数字芯片、OSD三大类。模拟电路是指处理模拟信号的电子电路。模拟信号具有连续性,信号传播的信息包含在幅度、频率、相位的变化上,常应用于放大信号,信号源两方面。数字电路是指处理数字信号的电子电路。数字信号以二进制逻辑代数为基础,实现简单,系统可靠,具有算数运算和逻辑运算的功能。OSD包括光电器件、传感器、分立器件三个细分类型。

image.png

汽车数据处理芯片运算由控制指令向AI运算方向发展

现阶段,汽车芯片市场上对汽车数据处理芯片分类有按三类:1)智能运算为主的AI芯片;2)算力较强的主CPU;3)算力较弱的MCU(仍可视为CPU)。也有按两类:1)智能运算为主的AI芯片;2)CPU运算为主的MCU。为了便于理解,主CPU和MCU的主要玩家都是同一类,而且CPU与MCU本质均为控制指令运算,因此我们采用第二种分类方法。

汽车芯片由以控制指令运算为主的MCU向智能运算为主的AI芯片方向发展。1)控制指令运算可执行如等待指令、停机指令、空操作指令、中断指令等,其运算单位为DMIPS:即Dhrystone MIPS测试下,计算能力为百万条指令/秒,一般通用芯片常用其表示,如传统汽车电子的MCU等,代表厂商如英飞凌、瑞萨、恩智浦等。2)AI矩阵运算常指对矩阵运算做加速的能力,对应用于图像、视频等非结构化数据的运算处理的情况下,单位功耗将更低,计算速度更快,其运算单位为TOPS、Tflops,均指每秒运算1012次。TOPS:指数据类型为整数型,常用于自动驾驶等领域,代表产品如华为昇腾系列芯片、地平线征程系列芯片、寒武纪的MLU系列芯片等。Tflops:指数据类型为单精度浮点数,较整数型数据精度更高,通用AI芯片常用它表示,常用于如核实验室运算、分子动力学运算等,代表产品如英伟达的GPU芯片。

在智能网联汽车领域,Int8数据类型精度即可满足现阶段AI运算要求。Int 8和FP32分为定点数和浮点数,小数点的位置是固定的,则为定点数,小数点的位置是浮动的,则为浮点数。Int8代表8个字节,此外,还有int4,int16等字节数越高,计算精度会提升,但占用存储增多,会降低计算速度,所以为保证满足数据精度和运算速度,常用Int8数据类型,单位为TOPS(即1012次/秒)。

汽车芯片结构形式由MCU向SOC异构芯片方向发展。汽车数据处理芯片按应用可分为MCU(微控制器)、SoC(System on Chip系统级芯片)。MCU结构简单,可视为简化版本的CPU,其将CPU的频率和规格适当缩减,并将内存、计数器、IO接口、I/D转换等结构都整合到单一芯片,形成芯片级的计算机,主要用于汽车执行端ECU中进行控制指令运算。SoC是一颗系统级芯片,常由CPU+GPU+DSP+NPU+各种外设接口、存储类型等电子元件组成,现阶段主要应用于座舱IVI、域控制等较复杂的领域。

SOC较MCU集成程度更高,常集成AI处理单元,功能更复杂。SOC芯片:1)硬件集成规模更为庞大,提升资源利用效率。常额外集成音频处理DSP/图像处理GPU/深度学习加速单元NPU等,单颗芯片上集成更多的配套电路,减小了面积,提升资源利用率,片上互联利于集成电路之间的高速互通互联。2)芯片上软件配套更大,提升处理效率。SOC芯片上有丰富的软件配套(工具链、编译器等),提升了处理效率。3)可支持多任务的复杂系统。但并非所有的SOC芯片均为AI芯片,需集成一定规模的时间网络单元才是AI芯片,如华为昇腾芯片、地平线征程芯片、寒武纪MLU芯片、特斯拉FSD均为此类芯片。

image.png
image.png
image.png

ARM内核提供芯片控制指令运算能力

CPU架构可分为X86为代表的复杂指令集架构,和ARM为代表的精简指令集架构。汽车CPU架构主要为ARM架构,在MCU和SOC中担任控制指令运算。CPU架构可分为CISC(复杂指令集)架构和RISC(精简指令集)架构。1)复杂指令集指令可变格式,包括8、16、32、64位,其特点是单指令功能强大且复杂,指令执行周期长,可以直接操作内存,常见的复杂指令集如X86,代表企业intel、AMD。2)精简指令集的特点是单指令功能简单、执行速度快,编译效率高,不能直接操作内存,常见的精简指令集有ARM、MIPS、OpenRISC以及RSIC-V等,代表企业:ARM。ARM处理器内核广泛用于嵌入式系统,具有执行效率高,低成本等优点。

ARM Cortex系列主要分为A、R、M三类。1)Cortex-A系列:常集成于SOC中,面向性能密集型系统的应用处理器内核,带宽多为64/32位,主频可达GHz级别(1GHz=103MHz),当主频达到1GHz时,其单核控制指令算力为几千DMIPS(DMIPS即为百万条指令每秒),多用于汽车座舱娱乐信息系统或ADAS领域;2)Cortex-M系列:常集成于MCU中,主要面向各类嵌入式应用的微控制器内核,主频为几十-几百MHz级别,其单核控制指令算力为几十至几百DMIPS,多用于汽车执行端控制领域;3)Cortex-R系列面向实时应用的高性能内核,介于A与M之间。

image.png

AI处理器提供芯片智能运算能力

AI处理器可分为云端处理器、边缘端处理器、终端处理器。1)云端AI处理器,支持Int8定点运算或FP16、FP32浮点运算,支持深度学习推理/训练要求,主要应用于政府、企业数据中心的服务器中,如服务金融业、航空航天、气象预报、宇宙演化模拟以及抗震分析等领域计算。此外在未来5G应用,更多的汽车数据会传送到车企数据中心用来训练模型,实现软件、算法的优化。2)边缘端AI处理器,Int8定点运算,支持深度学习推理要求,主要应用于工控机、安防摄像头、机器人、汽车车端等领域,由于所搭载设备的电力资源有限,能效比高(算力/功耗,值越高越经济)、接口丰富等是关键。3)终端AI处理器主要支持深度学习推理功能,主要应用于手机等移动终端,如华为麒麟系列芯片。未来云边端三类处理器并非竞争关系,而是未来会进一步协同发展,云端训练模型实现算法软件的优化,并提供给边缘/终端进行本地化AI运算。

车端AI处理器现阶段主要负责深度学习的推理任务。智能算法范围由大至小依次为:人工智能、机器学习、深度学习、神经网络。应用场景越少,对应需要的实现的算法越少,就越适用于专用芯片,可通过精简处理器软硬件模块,使处理器计算效率、能效比更高。

image.png
image.png

车规级芯片条件苛刻

车规级芯片标准远高于消费级,认证流程长。1)工作环境更为恶劣:相比于消费芯片及一般工业芯片,汽车芯片的工作环境温度范围宽(-40至155摄氏度)、高振动、 多粉尘、多电磁干扰。2)可靠性安全性要求高:一般的汽车设计寿命都在15年或20万公里左右,远大于消费电子产品寿命要求。在相同的可靠性要求下,系统组成的部件和环节越多,对组成的部件的可靠性要求就越高。3)车规级芯片认证流程长。一款芯片一般需要2年左右时间完成车规级认证,进入车企供应链后一般拥有5-10年的供货周期。

image.png

汽车标准需认证可靠性标准 AEC-Q 系列、质量管理标准 ISO/TS16949 其中之一, 此外需要通过功能安全标准 ISO 26262 ASIL B(D)。ISO 26262 在 2011 年 11 月 15 日正 式发布,主要包括四个等级,分别为 ASIL A/B/C/D。ISO 26262 安全是汽车电子元件稳 定性优劣的评判依据之一,通过该等级代表其产品稳定性合格,耐用,但不代表其算力、 能效比高。此外,还需要通过零失效的供应链质量管理标准 TS16949/ISO 9000 国际认证 体系下的汽车行业分支的标准认证;另一个是 AEC-Q 认证,由克莱斯勒、通用、福特制定的汽车电子元件安全性检测标准。

image.png

MCU引领汽车由机械化时代走向电气化时代

MCU承担汽车执行ECU的运算大脑

汽车发展初期,控制功能较少,一般新增一个功能便新增一个ECU(Electronic Control Unit,即电子控制单元),即为典型的分布式电子电气架构。因此,一般汽车中包括多个ECU,每个ECU管理不同的功能,而MCU芯片嵌入在ECU中作为运算大脑。MCU的工作过程:传感器输入信号,输入处理器对信号进行模数转换、放大等处理后,传递给MCU进行运算处理,然后输出处理器对信号进行功率放大、数模转换等,使其驱动如电池阀、电动机、开关等被控元件工作。MCU主要有8位、16位、32位,位数越多越复杂,处理能力越强,可实现的功能越多。

image.png

image.png

image.png

MCU单车价值量提升的核心逻辑在于:1)芯片用量提升,应用领域由传统底盘延伸至整车。随着汽车电子化发展,ECU逐渐占领整个汽车,从防抱死制动系统、四轮驱动系统、电控自动变速器、主动悬架系统,到现在逐渐延伸到了车身各类安全、网络、娱乐控制系统等领域。2)芯片集成复杂化,单价提升。以发动机管理系统ECU(MCU为其核心芯片)为例,汽车电子发展的初期,ECU最早仅应用于发动机的控制,如汽车发动机的排气管(氧传感器)、气缸(爆震传感器)、水温传感器等核心部件才会放置传感器,数量少。之后随着国三至国五标准的提升,在油耗控制、信号输出控制等方面需要芯片处理的能力增强,推动MCU芯片集成度提升,产品升级带来价值提升。

image.png

预计2025年我国汽车MCU市场达32.9亿美元,CAGR7.7%

2018年汽车单车MCU价值量约为78美元。参考Stratety Analytics数据分析,现阶段不论是在燃油车还是纯电动车中,单车MCU价值量大体相当。2018年传统燃油车、纯电动车单车半导体价值量分别为338美元、704美元,MCU价值量占比分别为23%、11%,即MCU单车价值量分别为78美元、77美元。主要原因在于现阶段电动车发展刚起步,多为经济型车,仅新增如电源管理系统等MCU,但是也减少了如发动机管理系统等MCU。随着电动化、智能化、网联化进程加快,无论是电控系统还是信息娱乐系统、网络系统等也需要更多的MCU,MCU单车价值量将持续快速提升。

image.png

image.png

假设:1)汽车市场容量预测。根据中汽协数据,2019年我国汽车产量为2572万辆,借鉴海外发达国家发展经验,我们预计2019-2030年国内汽车复合增速为2%。

2)数量预测。随着智能化进程加速,汽车控制功能逐年增多,单车平均MCU个数由2018年的50个将达到2030年的62个。分类别来看,2018年MCU 8位、16位、32位个数分别为20、20、10。现阶段,随着智能化对算力要求增加,相关的技术逐渐成熟,32位MCU用量将会快速提升,而8位MCU因体积小、成本低等优势单车使用数量仍将保持稳定,而16位MCU市场将逐渐被32位和8位MCU挤压,至2030年8位、16位、32位个数分别为20、14、28。

3)单车价值预测。单车MCU价值由2018年的78美元提升至2030年的149美元。我们重点参照NXP市场数据,MCU单价:8位一般为1美元以下,16位为1-3美元,32位为3美元以上。而随着技术逐渐成熟,16位与8位单价正在逐年下降,32位随着功能更加丰富和复杂化,更多高单价的产品正在被开发出来。预计8位、16位MCU均价由2018年的0.4美元、1.8美元分别下降至2030年的0.35美元、1.52美元,32位MCU均价由2018年的3.4美元提升至2030年的4.31美元。

2025年我国汽车MCU市场规模达32.9亿美元,未来6年CAGR为7.7%。经测算,2019年我国汽车MCU市场规模为21.1亿美元,同比-2.7%,随着汽车智能化加速,更多的功能将会被整车搭载,大量执行元件需要被MCU所控制,到2025年MCU市场规模达32.9亿美元,CAGR为7.7%,到2030年将达47.6亿美元。

image.png

汽车MCU行业加快整合集中度提升

全球MCU通用市场并购加速。我们重点参考MCU通用领域(汽车、工业、消费电子等)市场,MCU厂商为争夺市场份额,近年来发生了数起大规模并购。NXP在2015年以118亿美元收购飞思卡尔,完成了在汽车电子领域的布局,排名也一举从第六上升至第一;Cypress在2015年以40亿美元收购spansion;Microchip在2016年完成对Atmel的收购,成为全球第二大MCU厂商。我们判断,汽车MCU市场也将随通用市场的加快整合,实现集中度的提升。

image.png

欧美日前五大汽车MCU供应商占据全球82.7%市场份额,头部集中效应显著。根据Stratety Analytics分析数据,全球汽车MCU市场前5占82.7%的市场份额,前五大MCU供应商分别为日本瑞萨电子,欧洲:NXP、英飞凌,美国:德州仪器、微芯科技。

全球前八大厂商也同样占据我国汽车MCU 93%的市场份额。仍由欧美日传统汽车电子厂商占据绝大部分市场份额,我们重点参考IHS数据分析,目前中国MCU市场,前八大MCU厂商的市场占有率达到93%。国产化率不足5%,替代空间大。国内企业技术较为薄弱,企业规模与前八大厂商差距较大,现阶段主要为工业控制、仪器仪表、消费电子、物联网等通用领域供货。随着国内企业技术逐渐成熟,国内厂商凭借价格和服务优势,正逐步抢夺低端MCU市场,进口替代趋势逐渐明显。但由于车规级标准较高,技术和市场发展均晚于一般工业和消费级芯片。

image.png
image.png

软件定义汽车时代来临,域控制AI芯片是重要一环

AI芯片是智能汽车时代实现域控制的核心

汽车由分布式架构向域控制/中央集中式架构方向发展。传统分布式硬件架构面临智能汽车时代多维感知需求和海量非结构化数据处理的需求,一般每新增一个应用功能,便新增对应的感知传感器、决策、执行层。随着智能网联汽车时代的到来,以特斯拉为代表的汽车电子电气架构改革先锋率先采用中央集中式架构,即用一个电脑控制整车。全球范围内各大主机厂均已认识到软件定义汽车的大趋势,纷纷升级自身的电子电气架构,虽不同主机厂采用几个电脑控制整车的方案不同,但架构域控制/集中化方向相同。域控制器逐渐集成前期的传感器处理器、数据融合、路径规划、决策等诸多运算处理器功能,因此对域控制器芯片算力需求大幅提升。

非结构化数据导致传统MCU不能满足需求,AI作为协处理器逐渐成为智能时代的核心。随着芯片需要处理传感器传来的大量汽车内外部环境信息,而且也要处理大量图片、视频等非结构化数据,面向控制指令运算的MCU不能满足需求。AI处理器作为智能时代的协处理器,成为智能汽车时代的核心。一般待处理数据信息会先传递给CPU(等同于MCU),CPU发现有大规模的非结构化数据,自身无法处理,便将其传输给AI处理器运算,而CPU便暂停运算,等待AI处理器运算结束后,再进行下一步操作,所以AI处理器是人工智能时代的协处理器,是现阶段智能汽车时代运算的核心。

image.png
预计2025年我国汽车AI芯片市场超91亿美元,CAGR46.2%

假设:1)汽车市场容量预测。如前文MCU测算假设一致,我国汽车产量2019-2025年复合增速为2%。

2)各级别自动驾驶渗透率预测。L3、L4级分别于2020年、2023年规模量产,每年并以3-4%渗透率提升。根据工信部发布的《汽车中长期发展规划》指出,我国2020年自动驾驶渗透率达50%,2025年渗透率达80%。L3级于2020年开始量产并规模投放市场,渗透率快速提升,随着L4级车于2023年开始量产,低级别渗透率陆续到达渗透率峰值后又缓慢下降。

3)各级别自动驾驶AI芯片单车价值预测。2020年L1-L3级AI芯片单车价值分别为50美元、150美元、500美元,随着技术逐渐成熟,2030年下降到41美元、111美元、315美元。我们预计到2023年L4级高级自动驾驶出现,AI芯片单车价值约为1500美元,到2030年下降到931美元。

2025年我国AI芯片市场超91亿美元,未来6年复合增速达46.4%。经测算,2020年我国汽车AI芯片市场规模为15亿美元,同比增长59.4%,随着汽车EE架构加速升级,域控制器/中央计算平台被广泛使用,到2025年AI芯片市场规模达91亿美元,CAGR为45.9%,到2030年将达177亿美元,十年复合增速28.1%。

image.png

集成更多AI单元是智能芯片技术路径发展的大趋势

CPU,又称中央处理器,擅长逻辑控制和通用类型数据运算,具有不可替代性。CPU有很强的通用性,可处理不同的数据类型,主要负责顺序控制、操作控制、时间控制、数据加工等操作,因此在任何一个电脑或嵌入式的计算中都有CPU或其裁剪版本。CPU由控制器(Control),寄存器(Cache、DRAM)和逻辑单元(ALU)构成,其中控制器和寄存器占比较大,而处理数据的逻辑单元占比较小,因此对于专用领域数据处理能力较弱。代表厂商即为X86处理器的英特尔和嵌入式处理器的ARM。

GPU,又称图形处理器,俗称显卡,擅长大规模并行计算。GPU拥有计算单元数量众多和超长的流水线,处理的数据类型通常为高度统一的、相互无依赖,省去了大量CPU的不必要控制指令计算模块,并行计算能力较CPU强。随着人工智能的发展,GPU不断被应用于数值模拟、机器学习、视觉处理、语音识别等领域,厂商代表即为英伟达。

image.png

image.png
FPGA全称是Field Programmable Gate Array:又称可编程逻辑门阵列,算力较高,适合小规模定制化开发测试。用户可通过烧入配置文件来定义其内部结构的连线,从而达到定制电路的目的。FPGA的芯片量产成本较高,能效比较差,不如ASIC专用芯片。适用于科研、企业开发阶段,一旦方案确定,其成本优势就不再突出。代表厂商:赛灵思、阿尔特拉(被英特尔收购)、深鉴科技。

ASIC全称是Application-Specific Integrated Circuit:是一种为专门目的而设计的集成电路,具有算力最高,能效比优等特点。ASIC面向特定用户的需求,适合较为单一的大规模应用场景,运行速度在同等条件下比FPGA快。但在架构层面对特定智能算法作硬化支持,指令集简单或指令完全固化,若场景一旦发生变化,该类AI芯片便不再适用,需要跟新换代。面对现阶段,AI算法日新月异,每年都有大量的算法被开发出来,对于自动驾驶领域适用性不强。所以现阶段并没有真正意义上的ASIC芯片。

N-SOC,(即添加神经网络单元的系统级芯片)是指在芯片中集成更多的神经网络单元,以实现快速的CNN(卷积神经网络)运算。N-SOC是现阶段市场的新名词,主要系随着AI芯片的发展,传统定义方法并不完全适用,N-SOC区别于ASIC的智能算法被硬化,但其并不是一颗完全通用芯片,仅支持少量的算法。典型的代表企业:英特尔旗下的Mobileye、华为(达芬奇架构Ascend系列)、寒武纪(MLU系列)、百度(昆仑云)、阿里平头哥、Google(TPU)等。

image.png
image.png
由通用向专用排序依次:CPU、GPU、FPGA、ASIC;数据处理成本经济性(由优至差):ASIC、FPGA、GPU、CPU。1)CPU最通用,算力差,能效比最差,但除了运算,还包括控制指令,不可被替代;2)GPU为较为通用的芯片,算力高,架构较为开放,可允许主机厂基于底层硬件架构开发自己的专门算法,但能效比较差;3)FPGA,算力一般,可根据客户需求用配置文件更改芯片结构的连线,实现定制电路,适用于实验室科研、前期开发等小批量应用;4)ASIC为专用芯片,算力高、能效比优,节约不必要开发资源,规模量产成本最低,但支持算法不够灵活。
image.png

AI芯片通过添加神经网络单元实现AI运算的更高效。目前市场对未来汽车AI芯片采用通用GPU、FPGA、ASIC芯片方案仍有较大争议,我们认为汽车数据处理芯片不断异构化,通过不断添加神经网络单元实现AI运算是未来发展的主要方向。除了华为、地平线、寒武纪等AI芯片不断增加神经网络单元外,而作为通用GPU的代表供应商英伟达的自动驾驶系列芯片,也通过添加神经网络单元,以实现对AI处理越来越高效。但总体而言GPU仍功耗较高,丰富的通用模块可实现对各种场景的适用性,但也带来了成本过高,功耗过高的问题。而新出现的N-SOC虽不是ASIC固定算法,具有成本/功耗较低等优点,但其针对各种场景的适应性仍较弱。在汽车领域,未来两者未来性能、成本等方面会有相互靠近的趋势。

芯片

域控制器AI芯片呈现三强多极竞争格局

结论:特斯拉FSD芯片自研自用,引领产业发展,属于独立一级;全球GPU领域AI龙头英伟达和背靠英特尔的汽车AI芯片龙头Mobileye属于第一阵列;华为技术强劲自建生态体系属于1.5阵列,有望快速突围进入第一阵列;国内智能驾驶AI芯片新锐地平线、云边端全领域覆盖AI新兴寒武纪等处于第二阵列;传统汽车电子厂商及其他潜在进入者处于第三阵列。

image.png

特斯拉自研FSD方案属于另一极。主要优势:由于其自研自用,根据需求研发专用芯片,减少不必要的软硬件模块,1)缩短研发周期,减少研发设计工作量;2)提升能效比;3)用户数据驱动研发优化。主要劣势:1)生态较为封闭,仅内部开发和使用,无法建立完善的生态体系。2)若使用量有限,芯片研发需要投入大量资金,软硬件开发的成本难以通过大规模使用均摊成本。

Mobileye与英伟达属于第1阵列。在L3级到来以前,两公司产品几乎不会处于正面竞争,随着自动驾驶进程加速发展,竞争会逐渐加剧。短期来看,Mobileye面向L3级以下市场,产品更加成熟,会更占优势。中长期来看,英伟达面向L3级以上预研市场在AI领域实力深厚,后发有力,优势会更加突出。

NIVIDA属于第1阵列,作为通用AI芯片龙头,占据L3级及以上市场,对外提供芯片级产品,而非芯片+算法的解决方案,是合资品牌的优选。主要优势:1)中立第三方,最丰富的生态体系。定位Tier 2芯片供应商,提供芯片或开发平台,具备最完善的软件工具链和应用生态;2)算力高(但利用率仍有待提升),Xaier芯片的30TOPS高于Eye Q4的2.5TOPS,Orin芯片的200TOPS高于Eye Q5的24TOPS;3)支持各类传感器数据融合,可提供摄像头+雷达等各类传感器数据融合处理;4)提供云服务,有望获取数据实现优化。主要劣势:主要系GPU通用芯片,有大量的非必要软硬件模块,1)成本价格较贵,浪费资源,后续有望规模量产后实现快速下降;2)能效比差,后续产品开发加入更多的DLA深度学习加速器模块,能效比有望改善。

Mobileye属于第1阵列,背靠英特尔,占据L2级及以下市场,芯片+算法绑定的一体式解决方案。主要优势:1)经验丰富&质量可靠,产品已经有众多量产车搭载,质量和适配过关;2)客户资源最丰富,国内外绝大多数主机厂和Tier1级供应商均为其客户;3)价格较为合理。主要劣势:1)算力提升明显低于其他厂商,最新EyeQ5算力峰值仅24TOPS,而市场认为L3级算力需求30TOPS以上,后期芯片仅靠提升VMP等手段,算力提升或难以为继,又或者因为高度定制化针对视觉领域,减少不必要的软硬件资源,算力不高但性能仍满足需求;2)黑盒子模式限制用户创新,算法和芯片捆绑销售,或与厂商规模较小,为客户提供定制化服务,在主机厂软件开发能力较差的初期阶段受广泛欢迎,但随着开发能力提升,一体销售的灵活度较差,客户难以做出差异性产品。根据规划Eye Q5或将开放融合算法,但感知算法并未提及。

华为属于第1.5阵列,凭借强劲的技术实力有望快速进入第一阵列,主要针对L2+及以上市场,模式与NVIDIA类似,现阶段对外提供平台类产品(开发平台),而非解决方案,是国产品牌的优选。主要优势:1)算力高,能效优,计算平台可提供64~350TOPS,端到端1TOPS/W(芯片级2TOPS/W);2)支持各种传感器融合处理;3)华为整体技术雄厚,生态体系有望迅速完善,依托华为从底层芯片、操作系统、应用算法、5G、云计算服务等迅速建立丰富生态体系;4)提供云服务,有望获取数据实现优化。主要劣势:1)无量产车,缺乏相关的经验积累,暂时无数据优化软件算法,搭载量产车或到2021年底左右;2)现阶段生态体系仍弱于英伟达,所以目前华为广交朋友圈,依靠众多领域的优势构建庞大生态体系;3)客户对其“不造车”尚持怀疑,或影响合作。

地平线属于强势第2阵列,模式与Mobileye类似,对外主要提供解决方案类产品(芯片+算法),未捆绑销售,AI芯片于2020年已搭载在长安UNI-T座舱域。自动驾驶域芯片尚未搭载量产车,现阶段主要针对L2级及以下市场,对外提供芯片+算法方案。主要优势:1)作为中立第三方,芯片和算法可分开销售或一体式解决方案,受客户信任;2)国产芯片,国内优选。主要劣势:1)现阶段算力较低,无丰富生态,创企等;2)尚未通过功能安全认证,无自动驾驶芯片量产车。

寒武纪属于第2阵列,或从车路协同、云服务(数据中心)等领域实现快速切入。主要优势:1)云边端三类产品可从各种商业模式供应给智能车产业领域,云端产品可供应车企/Tier 1数据中心或提供给云服务供应商;边缘端产品供应给政府类客户用于车路协同设备使用;边缘/终端产品供应给主机厂等。2)国产芯片,国内优选、中立第三方。主要劣势:1)与车企合作较少,无丰富生态,创企等;2)尚未通过功能安全认证。

特斯拉:自研FSD芯片,引领产业发展

总结:特斯拉自研FSD方案属于另一极。主要优势:由于其自研自用,根据需求研发专用芯片,减少不必要的软硬件模块。1)缩短研发周期,减少研发设计工作量;2)提升能效比;3)用户数据驱动研发优化。主要劣势:1)生态较为封闭,仅内部开发和使用,无法建立完善的生态体系。2)若使用量有限,芯片研发需要投入大量资金,软硬件开发的成本难以通过小规模使用均摊成本。

Autopilot 1.0系统因Mobileye EyeQ3算力低、算法和芯片捆绑销售限制创新被弃用。2014年特斯拉发布Autopilot 1.0,视觉芯片采用Mobileye EyeQ3,数据融合芯片采用英伟达Tegra 3。搭载1个前置摄像头、1个后置倒车摄像头(不参与辅助驾驶)、1个前置雷达、12个超声波传感器。特斯拉弃用主要原因在于:EyeQ3算力仅0.256TOPS,而且视觉感知算法和芯片捆绑销售,影响产品创新。

Autopilot 2.0系统因NVIDIA PX2方案能效比差,成本较高被弃用。2.0系统较上一代提升40倍性能,系统由1.0系统的雷达引导为主,转变为以摄像头为主,雷达作为辅助。硬件方案采用NVIDIA的1颗Tegra Parker芯片和1颗Pascal架构芯片方案;支持8个摄像头、12个超声波雷达和1个前置毫米波雷达。2.5系统仍是NIVIDIA方案的延续。特斯拉弃用NVIDIA方案主要原因在于:NVIDIA PX2方案GPU芯片仍有较多的软硬件资源浪费,能效比(算力/功耗)较差,成本较高。

特斯拉Autopilot 3.0系统自研FSD+算法。3.0系统采用了自研的FSD芯片方案,2颗FSD芯片实现冗余设计,共2*72TOPS/72W,针对自身应用算法和场景专门设计FSD,可减少不必要的软硬件模块,实现资源的最大化利用。Autopilot 3.0实际应用性能相比2.5版本提升21倍,功耗仅高25%,其成本却只有2.5版本的80%。两颗芯片将运算结果互相比对,若结果正确则执行操作,若错误则返回重算,而且若某颗芯片出现故障,自动驾驶系统仍不受影响。

image.png

image.png
image.png

image.png
image.png

FSD芯片是一颗CPU+GPU+ISP+2*NPU的异构芯片。芯片异构化是总体发展方向,让专用处理单元运算对应的操作。1)CPU是1个12核心ARM A72架构的64位处理器,运行频率为2.2GHz;2)GPU能够提供0.6TFLOPS计算能力,运行频率为1GHz;3)2颗NPU(神经网络单元)运行在2.2GHz频率下能提供2*36TOPS的处理能力。为了提升神经网络处理器的内存存取速度以提升计算能力,每颗FSD芯片内部还集成了32MB高速缓存。

FSD芯片针对自身需求专门开发,是特斯拉芯片性能高和功耗优的重大法宝。发布Autopilot 3.0时,特斯拉宣称FSD芯片算力为72TOPS,系统整体算力2*72TOPS,而NVIDIA Xavier芯片仅为21TOPS。尽管之后NVIDIA公布Xavier理论计算能力为30TOPS,但依然不及FSD芯片。而NVIDIA DRIVE AGX Pegasus计算平台,基于2*Xavier和2*TensorCore GPU,算力达到320TOPS,功耗为320W,高于Autopilot 3.0系统的72W。主要系FSD芯片作为特斯拉专用芯片,较GPU的通用芯片可减少不必要的软硬件模块,实现资源的最大化利用。

image.png

NVIDIA:全球通用AI芯片龙头,构建生态王国

结论:NIVIDA属于第1阵列,作为通用AI芯片龙头,占据L3级及以上市场,对外提供芯片级产品,而非芯片+算法的解决方案,是合资品牌的优选。主要优势:1)中立第三方,最丰富的生态体系。定位Tier 2芯片供应商,提供芯片或开发平台,具备最完善的软件工具链和应用生态;2)算力高(但利用率仍有待提升),Xaier芯片的30TOPS高于Eye Q4的2.5TOPS,Orin芯片的200TOPS高于Eye Q5的24TOPS;3)支持各类传感器数据融合,可提供摄像头+雷达等各类传感器数据融合处理;4)提供云服务,有望获取数据实现优化。主要劣势:主要系GPU通用芯片,有大量的非必要软硬件模块,1)成本价格较贵,浪费资源,后续有望规模量产后实现快速下降;2)能效比差,后续产品开发加入更多的DLA深度学习加速器模块,能效比有望改善。

NVIDIA凭借通用GPU,占领游戏、数据中心等AI应用多项霸主。为研发可加快游戏行业3D图像的渲染速度的专用芯片,黄仁勋等三人于1993年联合创立NVIDIA,于1999年推出世界首款GPU(图形处理器),为此后迅速抢占游戏市场成为霸主打好坚实基础,当年实现营收1.5亿美元,并成功在纳斯达克上市。在2006年英伟达推出使GPU通用化的CUDA技术,助推GPU成为应用最广的AI硬件。随着深度学习和大数据技术的快速发展,NVIDIA基于通用CUDA的GPU,逐步延伸到视觉处理、数据中心、智能驾驶等领域,打造完善的AI生态体系,并引领人工智能时代的发展。在GPU芯片市场,英伟达的AI芯片在全球市占率高达70%。在人工智能时代的快速演进下,NVIDIA作为人工智能的引领者,市值不断取得新高,截止目前已超2000亿美金。

image.png
英伟达作为人工智能时代引领者,近年来加速角逐智能驾驶领域。2014年公司正式发布基于Kepler架构的Tegra K1移动处理器,正式进军智能驾驶领域,此后陆续发布Drive系列的产品。核心GPU架构也由Kepler-Maxwell-Parker-Volta架构不断提升,算力也由2.3TFlops(浮点运算,FP32)提升到了Xavier芯片的30TOPS(定点运算,int 8,约为30*1012次/秒),能效比(算力/功耗)逐代优化。2015年发布首款自动驾驶平台DRIVE PX算力便达到2.3TFlops,便可支持L2/L3级智能驾驶,截止目前已发布系列产品算力可支持L2-L5级自动驾驶领域。

由于NVIDIA芯片从通用领域跨入自动驾驶专用领域,产品正不断进化:1)浮点运算(FP32)向定点运算(int8)。浮点运算虽然精度更高,但占用位数更多,同样条件下运算速度更慢,智能驾驶领域为深度学习推理领域,int 8满足需求。2)芯片异构化。Xavier系统级芯片内置ISP(图像信号处理器)+VPU(视频处理单元)+PVA(可编程视觉加速器)+DLA(深度学习加速器)+CUDA GPU+CPU,实现近40万亿次运算/秒,仅深度学习就高达30万亿次/秒。NVIDIA的销售模式采用芯片+对应的软件支持的模式,其配套软件主要负责调用其芯片资源,而客户可自行开发软件算法以调用NVIDIA芯片的算子库等,实现深度学习处理运算。

image.png

2015年英伟达的K1芯片嵌入于奥迪A8的zFAS系统中。奥迪发布中央驾驶辅助系统控制单元(zFAS),支持L3级别,主要包括有4个核心元件:1)英伟达的K1(采用Kepler架构GPU,算力约为350GFlops,负责驾驶员状态检测,360度全景;2)Mobileye(英特尔旗下)的EyeQ3负责交通信号识别,行人检测,碰撞报警,光线探测和车道线识别;3)Altera(英特尔旗下)的Cyclone V(FPGA)负责目标识别融合,地图融合,自动泊车,预刹车,激光雷达传感器数据处理;4)英飞凌的Aurix TC297T负责监测系统运行状态,使整个系统达到ASIL-D的标准,同时还负责矩阵大灯。
image.png

2016年,Drive PX 2方案的芯片量产搭载于特斯拉。2016年英伟达发布DRIVE PX 2方案,算力24TOPS/250W。其有多个版本,分别是配备单GPU和单摄像头、雷达输入端口的Drive PX2 Autocruise(自动巡航);配备双GPU多个摄像头、雷达输入端口的Drive PX2 AutoChauffeur(自动私人司机);配备多个GPU多个摄像头、雷达输入端口的Drive PX2 Fully Autonomous Driving(全自动驾驶)。特斯拉Autopilot 2.0硬件方案采用了英伟达的1颗Tegra Parker架构芯片和1颗Pascal架构芯片方案,2016年10月至2019年3月阶段搭载在特斯拉Model SModel X上。

image.png
Xavier助力中国造车新势力小鹏汽车L3级车量产。2017年1月发布Xavier芯片,采用Volta架构GPU,深度学习处理能力至多可达30TOPS/30W,到2020年已通过车规级ASIL-D。此外还发布了DRIVE Pegasus平台:将搭载2块Xavier Soc和2颗下一代架构的GPU,可以同时处理10多个摄像头、6个激光雷达和其他传感器的数据,实现算力/功耗320TOPS/320W。2018年小鹏汽车与英伟达签署战略合作协议,采用Xavier芯片研发适配中国交通环境和驾驶场景的L3级自动驾驶技术,2020年4月,首款搭载Xavier平台的量产车型小鹏P7正式上市。2019年12月发布Orin系统级芯片,采用全新的GPU及12核ARM CPU,200TFLOPS的性能是上代Xavier的7倍,功耗仅60-70W,NVIDIA预计将于2022年量产。

image.png

截止目前,根据我们不完全统计,NIVIDIA已与众多车企展开实质性合作,全球巨头方面包括丰田、大众、奥迪、奔驰、沃尔沃、戴姆勒等,国内车企包括小鹏、奇瑞、奇点、一汽集团等。其中Xavier芯片于2020年搭载在量产车型小鹏P7上。此外,大众MEB平台ID3也将搭载英伟达产品。

image.png

NVIDIA目标并非制造自动驾驶汽车,而是为了降低行业进入门槛。NVIDIA在全球与370+合作伙伴一起,基于底层AI芯片共同打造自动驾驶生态系统。截止目前NVIDIA全球范围内共选择与六家Tier 1供应商展开合作,包括博世、采埃孚、海拉、奥托立夫、大陆、德赛西威。NVIDIA目标并非制造自动驾驶汽车,而是打造必要的芯片硬件架构和对应的支持软件(用于调用底层芯片资源),降低自动驾驶汽车进入门槛,最终推动交通运输行业的变革。
image.png

Mobileye:背靠英特尔,全球自动驾驶AI芯片龙头

结论:Mobileye属于第1阵列,背靠英特尔,占据L2级及以下市场,芯片+算法绑定的一体式解决方案。主要优势:1)经验丰富&质量可靠,产品已经有众多量产车搭载,质量和适配过关;2)客户资源最丰富,国内外绝大多数主机厂和Tier1级供应商均为其客户;3)价格较为合理。主要劣势:1)算力提升明显低于其他厂商,最新EyeQ5算力峰值仅24TOPS,而市场认为L3级算力需求30TOPS以上,后期芯片仅靠提升VMP等手段,算力提升或难以为继,又或者因为高度定制化针对视觉领域,减少不必要的软硬件资源,算力不高但性能仍满足需求;2)黑盒子模式限制用户创新,算法和芯片捆绑销售,或与厂商规模较小,为客户提供定制化服务,在主机厂软件开发能力较差的初期阶段受广泛欢迎,但随着开发能力提升,一体销售的灵活度较差,客户难以做出差异性产品。根据规划Eye Q5或将开放融合算法,但感知算法并未提及。

Mobileye于1999年由以色列希伯来大学的Amnon Shashua教授和Ziv Aviram创立,直到2007年搭载Mobileye产品的量产车才上市。2014年7月公司IPO上市,受到市场的广泛关注,便开始大批量向各大主机厂提供智能汽车安全设备,2017年被英特尔以153亿美元收购,并将其原自动驾驶事业部IDG整合到Mobileye旗下。

近年来Mobileye背靠Intel全球巨头,加速进军中国市场。2018年初Mobileye和四维图新达成全面战略合作伙伴关系,双方将在中国开发和发布Mobileye的路网采集管理产品。2019年1月与长城汽车合作,在未来3~5年内,Mobileye向长城提供L0~L2级ADAS系统,还将共同开发中国独特路况的L3+自动驾驶系统;10月与紫光集团成立合资公司,紫光持股51%、Mobileye持股49%;11月与蔚来汽车宣布合作;2020年1月与上汽集团达成合作,推进L2+自动驾驶系统等部署。

image.png
2014-2019年芯片出货量持续快速提升。EYE Q系列芯片出货量由2014年的270万片提升至2019年的1740万片,年均复合增速45.2%。截止2020Q1,Mobileye累计售出约5400万枚芯片,被搭载在全球超过5000万辆汽车上,前装市场收入占营收的85%以上,市场占有率约为70%。

2014-2019年Mobileye营收持续快速增长。Mobileye从2014年的1.4亿美元提升到2019年的8.8亿美元,年均复合增速43.7%。其中,通用、日产、现代、宝马四大汽车产商约占收入一半以上。

image.png

image.png
Mobileye产品由视觉处理向多传感器数据融合方向发展,但芯片+算法绑定销售或限制客户创新。Mobileye以视觉处理起家,所以前期产品主要专注于摄像头+视觉处理芯片+算法等绑定一体式解决方案。由于自动驾驶发展初期,主机厂和Tier 1级供应商软件算法的开发能力很弱,采用绑定一体式解决方案可一站式搭载上车,该模式对主机厂软件开发能力要求很低,符合该阶段市场需求,因此Mobileye产品迅速占领全球市场。但随着主机厂和Tier 1级供应商的软件开发能力逐步提升,绑定一体式解决方案限制了主机厂新车型的算法应用创新。根据Mobileye规划的EyeQ5芯片,可实现多种传感器数据融合处理,且融合算法或将开放给主机厂自行开发,但视觉处理的感知算法是否开发并未提及。
image.png

EyeQ芯片的神经网络处理单元是VMP,主要通过VMP数量提升实现算力提升。EyeQ芯片由Mobileye和意法半导体合作研发设计,通过增加VMP的数量和提升VMP的运行频率来提升算力、能效比。VMP用来应对ADAS相关的图像处理任务,如:缩放和预处理、翘曲、跟踪、车道标记检测、道路几何检测、滤波和直方图等。

EyeQ3整体算力/功耗仅0.256TOPS/3W,只负责视觉处理。配置四个多线程MIPS32内核和四个矢量微码处理器(VMP)内核。EyeQ3配置四个多线程MIPS32内核和四个矢量微码处理器(VMP)内核。

2014年发布第四代ADAS视觉处理器EyeQ4,开始实现部分融合。由于产品发布到搭载量产车需要一段时间适配和测试,相关产品于2018年才应用于新上市车型。EyeQ4算力达到2.5TOPS/3W,最多支持8个传感器(7个摄像头+1个激光雷达)数据处理,配置了4个CPU内核和6个矢量微码处理器(VMP),频率由500MHz提升至1GHz;1GHZ的工业级四核MIPS处理器,支持创新性的多线程技术能更好的进行数据的控制和管理;军工级MIPS Warrior CPU位于次级传输管理中心,用于处理片内片外的通用数据。EyeQ4符合ISO-26262国标、欧洲NCAP和美国NHSTA法规要求。

image.png

image.png

EyeQ5将实现多类传感器融合处理,据Mobileye规划融合算法将开放给用户开发。2016年5月Mobileye和意法半导体宣布将合作研发Mobileye EyeQ5,Mobileye预计2020年实现量产全自动驾驶(FAD)汽车的处理器,并执行传感器融合程序。EyeQ5算力/功耗2*12TOPS/2*5W,可最多支持20个外部传感器(摄像头、雷达或激光雷达)数据处理。配置8个多线程CPU核和下一代18核微码处理器(即18个VMP)。

image.png

华为:依托芯片,欲打造最强生态体系

总结:华为属于第1.5阵列,凭借强劲的技术实力有望快速进入第一阵列,主要针对L2+及以上市场,模式与NVIDIA类似,现阶段对外提供平台类产品(开发平台),而非解决方案,是国产品牌的优选。主要优势:1)算力高,能效优,计算平台可提供64~350TOPS,端到端1TOPS/W(芯片级2TOPS/W);2)支持各种传感器融合处理;3)华为整体技术雄厚,生态体系有望迅速完善;依托华为从底层芯片、操作系统、应用算法、5G、云计算服务等迅速建立丰富生态体系;4)提供云服务,有望获取数据实现优化。主要劣势:1)无量产车,缺乏相关的经验积累,暂时无数据优化软件算法,搭载量产车或到2021年底左右;2)现阶段生态体系仍弱于英伟达,所以目前华为广交朋友圈,依靠众多领域的优势构建庞大生态体系;3)客户对其“不造车”尚持怀疑,或影响合作。

华为芯片主要有五大系列,昇腾芯片是车端AI计算核心。1)麒麟芯片是手机等移动终端设备芯片,主要包括应用于高端领域的9系列,包括麒麟990、麒麟980、麒麟970等。除此之外,麒麟还拥有6系,7系以及8系等面向中低端系列的芯片;2)鲲鹏芯片主要面向服务器领域,鲲鹏920芯片完全由华为自主研发,是全球第一款7nm的数据中心ARM处理器,主要适用于华为的泰山服务器;3)昇腾芯片是AI领域的处理器,昇腾芯片分为云端和边缘端两个系列,云端(数据中心等大算力需求)为昇腾910,边缘端(设备端等)为昇腾310,现阶段运用车端的主要是昇腾310;4)巴龙芯片是基带(通信)芯片,如支持5G双模的巴龙5000,主要应用在麒麟980和麒麟990上,其中麒麟990还推出了集成巴龙5000基带芯片的版本;5)凌霄芯片是路由器芯片,其中Hi5651芯片是业界首款4核1.4GHz家庭路由处理芯片。

基于昇腾310 AI芯片的MDC计算平台是华为车端生态的坚实根基。在2018年推出MDC计算平台以及高阶自动驾驶全栈解决方案,包括分别对应于L3、L4级自动驾驶的MDC 300和MDC 600平台。MDC集成了华为自研的Host CPU芯片、AI芯片、ISP芯片与SSD控制芯片,并通过底层的软硬件一体化调优,在时间同步、传感器数据精确处理、多节点实时通信、最小化底噪、低功耗管理、快速安全启动等方面业界领先。MDC的核心是昇腾310芯片,主要用于AI计算。昇腾310是一颗N-SOC芯片,采用自研达芬奇架构,算力功耗16TOPS/8W,12nm工艺,其主要应用于整个边缘端市场,2019年底已量产可提供给工业领域客户。

image.png

MDC 300计算平台支持L3级自动驾驶。MDC 300由华为昇腾310芯片、华为鲲鹏CPU芯片和英飞凌的TC397三部分构成,算力为64TOPS,支持L3级自动驾驶需求,可接入11个摄像头、6个毫米波雷达、12个超声波雷达、6个激光雷达。

MDC600计算平台支持L4及以上自动驾驶。MDC 600包括鲲鹏CPU+8块昇腾310+ISP,支持L4,算力为352TOPS,支持L4及以上自动驾驶,可接入16个摄像头、16个超声波雷达、8个激光雷达、6个毫米波雷达。

MDC是一套开放的车规级平台,优势突出。1)高能效:整套计算平台可实现端到端1TOPS/W能效(芯片级高达2TOPS/W能效)。2)开放:MDC具备组件服务化、接口标准化、开发工具化的特性,基于此平台可快速开发、调测、运行自动驾驶算法与功能。针对不同级别的自动驾驶算力需求,MDC可提供一套软件架构,不同硬件配置,内部支持ROS与Adaptive AutoSAR软件架构,具备较好的跨域通信能力。3)高安全:华为的自动驾驶全栈解决方案、MDC智能驾驶硬件平台、车载操作系统鸿蒙内核近期均已通过ASIL-D功能安全认证。

在商业合作模式方面,华为不提供芯片级别的解决方案,只提供MDC系统级产品。已合作客户包括奥迪,一汽、沃尔沃、东风、苏州金龙、山东浩睿智能、新石器等。

image.png

image.png
车企面对自动驾驶的快速开发和功能迭代,主要面临几大挑战:1)处理海量数据,成本高。一辆测试车1小时产生8TB数据,一天按8小时,一个月按22天计算,单车将产生约1.3PB/月的数据,而有效数据仅为0.05%,同时还有80万张/车/天图片待人工标识。2)训练及仿真需要优异AI算法和强大算力。从训练和仿真来看,单车预计需累积里程100+亿公里,300GPU/2天模型训练,仿真测试则每天需处理100万公里。3)仿真是自动驾驶持续提升安全的关键。仿真不可代替实车,但是前期开发实验过程仿真可快速实现和减少大量试错成本,不仅需要大量场景支持在线仿真,同时也需要有以实车为主的决策规划仿真系统。4)工具分散不能统一管理。现有工具多为烟囱式孤岛,分散,不利于大数据的统一、AI能力的统一构建,及高效运营管理。

华为“八爪鱼”自动驾驶云服务是基于昇腾910AI芯片的数据中心云服务。“八爪鱼”自动驾驶云服务覆盖自动驾驶数据、模型、训练、仿真、标注等全生命周期业务,向车企及开发者,提供了包括数据服务、训练服务、仿真服务在内的3大服务。1)数据服务:处理车载硬件平台上输出的传感器数据,回放雷达、摄像头等不同格式的数据;支持PB级海量存储、交互式大数据查询和海量数据治理。2)训练服务:管理和训练自动驾驶模型,不断在新的数据集和测试集上提升模型的准确度,持续提升自动驾驶安全系数。平台提供软硬件加速,能大幅缩短训练时间,提升训练效率。3)仿真服务:提供仿真、场景库管理、场景片段、评测系统等应用工具,确保自动驾驶模型合规、安全、可度量、质量达标,快速集成到版本中。

现阶段自动驾驶云服务供应商主要为华为、英伟达两家巨头。目前数据中心云端芯片供应商主要包括华为、英伟达、寒武纪等,而google、百度等均为自研内供。其他企业需要数据中心云服务可通过直接外购云计算服务或者自建数据中心两种放式。

image.png

地平线:对标Mobileye,AI芯片率先搭载UNI-T座舱域

结论:地平线属于强势第2阵列,模式与Mobileye类似,对外主要提供解决方案类产品(芯片+算法),未捆绑销售,AI芯片于2020年已搭载在长安UNI-T座舱域。自动驾驶域芯片尚未搭载量产车,现阶段主要针对L2级及以下市场,对外提供芯片+算法方案。主要优势:1)作为中立第三方,芯片和算法可分开销售或一体式解决方案,受客户信任;2)国产芯片,国内优选。主要劣势:1)现阶段算力较低,无丰富生态,创企等;2)尚未通过功能安全认证,无自动驾驶芯片量产车。

地平线成立于2015年6月,创始人系百度深度学习研究院院长余凯博士,学术背景浓厚,2017年被英特尔领投。2017年12月发布中国首款边缘端人工智能视觉芯片征程(Journey)系列和旭日(Sunrise)系列。征程系列主要用于智能驾驶领域,旭日系列主要用于物联网领域。合作伙伴包括奥迪、博世、长安、比亚迪、上汽、广汽等国内外的顶级Tier1,OEM厂商。

地平线成长路径与Mobileye类似,产品由视觉处理向多传感器数据融合方向发展。地平线前期产品主要提供视觉处理器,对外提供芯片及配套软件工具链+算法方案,客户可根据需求只选择芯片或者一整套解决方案。由于算法与AI芯片有较多的协同设计,在现阶段国内的主机厂软件开发能力仍较弱,合作模式仍主要为提供一整套解决方案。根据地平线规划J5芯片可实现传感器融合,算力/功耗达到96TOPS/15W。

image.png

2019年发布征程二代,主要负责视觉处理。征程二代芯片,搭载了地平线自主研发的高性能计算架构BPU2.0(Brain Processing Unit),通过软硬件的协同创新与优化,算力/功耗为4TOPS/2W。基于征程二代芯片打造的单目前视ADAS解决方案,可在100毫秒延迟内有效感知车辆、行人、道路线、交通标志、车牌、红绿灯等六大类近百种目标的检测和识别。通过提供基础的“芯片+工具链”,并向合作伙伴提供先进的模型编译器、完备的训练平台、场景驱动的SDK、丰富的算法样例等工具和服务,赋予汽车感知、建模的能力,实现车内车外智能化,用边缘AI芯片全面赋能智能驾驶。

image.png

image.png

Matrix1.0平台:4TOPS/31W。内置征程2.0处理器架构(4TOPS/2W),平台在31W功耗下,可进行20类不同物体的像素语义切割、三维物体检测和行人骨骼识别,支持4路720P 30fps图像实时处理,支持多传感器融合(摄像头图像输入、毫米波雷达、激光雷达),支持L2级别ADAS功能。

image.png
image.png

2020年征程二代芯片搭载量产长安汽车新车型UNI-T上。长安UNI-T预计于2020年6月正式量产上市,届时征程二代将成为国内首个搭载于量产车型的国产AI芯片。UNI-T智能座舱深度融合视觉、语音多种感知数据,实现了从交互对象、交互方式到交互逻辑的全方位升级,可通过语音、动作姿态、面部表情等指令交互为用户带来更加安全、智能的驾乘体验。UNI-T上包含多项AI主动服务:接听电话自动降低多媒体音量、视线亮屏、疲劳监测、智能语音拍照。

image.png

寒武纪:源于中科院,面向云边端全领域

结论:寒武纪属于第2阵列,或从车路协同、云服务(数据中心)等领域实现快速切入。主要优势:1)云边端三类产品可从各种商业模式供应给智能车产业领域,云端产品可供应车企/Tier 1数据中心或提供给云服务供应商;边缘端产品供应给政府类客户用于车路协同设备使用;边缘/终端产品供应给主机厂等。2)国产芯片,国内优选、中立第三方。主要劣势:1)与车企合作较少,无丰富生态,创企等;2)尚未通过功能安全认证。

寒武纪是智能芯片领域的先行者。寒武纪创始团队源于中科院,并长期致力于在人工智能与处理器架构交叉研究,DianNao、DaDianNao、PuDianNao、ShiDianNao、DianNaoYu等系列深度学习处理器架构或指令集成果在国际学术界引起的轰动性效应。随着研究成果趋于成熟,2016年寒武纪公司成立,并着手将其芯片和指令集业务向商用方向转化,截止目前,寒武纪是国际上少数几家全面系统掌握了智能芯片及其基础系统软件研发和产品化核心技术的企业之一。

寒武纪产品覆盖云端、边缘端、终端。寒武纪已面向云端、边缘端、终端推出了三个系列不同品类的通用型智能芯片与加速卡产品,以及共用相同自研指令集、处理器架构和基础系统软件平台,完成了“云边端一体化”建设,可覆盖人工智能领域高度多样化的应用场景(如视觉、语音、自然语言理解、机器学习等)。

image.png

云端AI芯片及加速卡:截止2020年6月,寒武纪于2018年推出国内首款云端AI芯片MLU 100,于2019年推出第二代产品MLU 270,该系列下一款产品MLU 290已处于内部样品测试阶段。已量产的云端AI芯片及加速卡产品可提供从30TOPS至128TOPS的单加速卡或单芯片计算能力。浪潮、联想、新华等厂商与公司合作,共同为客户提供一机双卡、一机四卡、一机八卡等不同配置的服务器产品。在云计算数据中心场景下,可由多台服务器组成智能计算集群,为客户提供更高的人工智能计算能力。云端AI芯片可应用于车企数据中心云服务,用于数据服务、仿真服务、训练服务。
image.png

image.png

边缘AI芯片及加速卡:寒武纪于2019年11月推出边缘AI芯片MLU 220及相应的M.2加速卡,可支持边缘计算场景下的智能数据分析与建模、视觉、语音、自然语言处理等多样化的人工智能应用。边缘端AI芯片可应用于车联网领域,随着智能网联汽车算力需求快速提升,也可用于车端自动驾驶域控制器领域。

image.png

image.png

终端智能处理器IP:覆盖从0.5TOPS至8TOPSAI算力需求,其片上缓存的尺寸亦可按照客户需求进行配置,无论是手机SoC芯片还是物联网类SoC芯片都可通过集成公司的处理器IP产品快速获得在终端做AI处理的能力。终端处理器可应用于现阶段对算力需求不高的汽车智能座舱领域。

域控制器AI芯片潜在进入者

AI芯片具备成为域控制器AI芯片的潜质:1)需要通过车规级/功能安全标准;2)算力至少应为TOPS量级;3)能效比(算力/功耗)应TOPS/W量级;4)与主机厂或Tier1供应商较长时间的合作适配等几个特点。

边缘端芯片公司:以下厂商均未涉及汽车领域,更未通过车规级。比特大陆产品主要用于矿机芯片,功耗过高;云天励飞算力较低。

image.png

云端AI芯片公司:1)百度、谷歌在自动驾驶领域布局最多,主要针对L4级以上自动驾驶领域,自研硬件、算法、编程框架等。例如百度自研算法、编程框架PaddlePadlle,其昆仑芯片为云端芯片,目前已搭载于服务器,具备开发自动驾驶域AI芯片的技术能力。2)阿里、腾讯通过投资创企或设立企业进行布局AI芯片,芯片主要对内提供数据中心云端芯片,暂不涉及自动驾驶领域。3)国内外云端创企如Grop、Graphcore、依图科技等暂时主要针对数据中心云端芯片,短期内无法布局更多领域。

FPGA芯片公司:主要为赛灵思(美国),深鉴科技(赛灵思收购),阿尔特拉(英特尔收购)。整体算力较低,能效比低于N-SOC,通用性能低于GPU,需要Tier 1级供应商定制化芯片结构以及提供一整套的算法应用方案。

传统汽车电子巨头:瑞萨电子、NXP、英飞凌、TI等均部署自动驾驶领域计算平台产品。但现阶段提供的计算平台产品仍属于CPU占主导的范畴,AI算力较低,而且能耗较大。部分企业通过并购或投资AI芯片创企的方式快速切入汽车AI芯片领域。

image.png
参考资料来自:东吴证券研究所

END

驭势资本是一家以研究驱动的硬科技精品投资银行,深耕集成电路5G物联网数据智能汽车科技领域,为顶尖的科技创业者提供专业资本服务。核心团队在硬科技领域拥有丰富的投融资经验,先后投资及服务的项目包括翱捷科技、臻驱科技、微众银行、微医集团、宏晶科技、晟矽微电子、地大信息、曼荼罗、美林数据、事成股份.
原文链接:https://mp.weixin.qq.com/s/fK...
微信号
yushi.jpg


更多硬科技领域的技术和市场分析请关注驭势资本专栏。
5 阅读 2.1k
推荐阅读
0 条评论
关注数
927
内容数
46
驭势资本是一家以研究驱动的硬科技精品投资银行,深耕集成电路、5G、物联网、数据智能和汽车科技领域,为顶尖的科技创业者提供专业资本服务。
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
Arm中国学堂公众号
关注Arm中国学堂
实时获取免费 Arm 教学资源信息
Arm中国招聘公众号
关注Arm中国招聘
实时获取 Arm 中国职位信息