如今,新能源汽车已经成为许多国人买车的首选项,尤其是智能化的操控体验是传统燃油车难以比拟的。但无论是自动驾驶还是智能控制,这些技术背后都离不开强大算力的支持,尤其是车辆传感器产生的大量数据会更需要实时处理和分析。
2024年1月,数字中国万里行暨算力经济中国行专家团来到坐落于浙江省湖州市长兴县的吉利星睿智算中心,除了参观考察算力基础设施,也深入了解算力是如何赋能车企的各种业务,如人工智能、大模型、智能驾驶、智能座舱等等热点话题。
第十四届全国政协委员、中国科学院计算技术研究所研究员 张云泉
正如第十四届全国政协委员、九三学社中央科技专委副主任、九三学社中央科普工委副主任、全国信标委算力标准工作组组长、中国科学院计算技术研究所研究员张云泉博士所说:“在数字经济时代,算力成为新的生产力,而算力经济则是数字经济衍生的一种新经济形态,尤其在汽车产业,数据和算力扩展到全环节”。汽车智能化作为汽车产业升级发展的重要方向,新能源汽车正是算力应用的最直接表现——每一辆汽车出厂之前,工程师们就已经为整车进行完善的智能操控与应用测试,确保用户更安全的智能驾驶、更智能的智能座舱。
吉利汽车中央研究院数据智能开发中心主任 陈勇博士
为了深度挖掘数据应用价值,吉利通过“1个中心+3个平台+N个全场景数据智能化服务”构建全场景数字化智能服务。吉利汽车中央研究院数据智能开发中心主任陈勇博士介绍,1个中心即智算中心。3个平台分别为大数据应用平台、人工智能应用平台、智驾数据闭环及虚拟现实仿真平台,提供的数据智能化服务包括AIGC人工智能内容生成、虚拟现实仿真平台、仿真计算应用平台、远程诊断RVDC、售后智能服务等等。
数据驱动
智算赋能
吉利星睿智算中心于2022年7月完成一期建设,2023年2月27日正式揭牌。该数据中心总投资10亿元,占地52.12亩,规划机柜5000架,一期已建成标准5kW机柜2520架目前(2024年1月),数据中心正在运行的CPU资源约6万多个、GPU卡2千多张、存储容量超过60PB。
传统数据中心的建设思路是先把基础设施建立起来,再逐步把业务迁入。而吉利面对智能化浪潮,需要的是自上而下的规划,迫切需要将数字化、智能化业务支撑起来,通过业务驱动平台的建设。
吉利汽车中央研究院智算平台开发部部长 谢东
在2022年7月,吉利星睿智算中心初步建成之时,短时间内便涌入了大量业务。吉利汽车中央研究院智算平台开发部部长谢东表示,作为全球车企中首个“云、数、智”一体化超级云计算平台,吉利统一智能化架构,统一研发、统一运营,全栈租户化来运营。
吉利整体的研发体系基本上是围绕数据来开展的,包括数据的采集、数据的处理、数据的应用,以及数据的合规化处理等。
星睿智算中心的算力设施主要分为三大区域:智驾区、通用区、仿真区。智驾区运行的业务包括数据采集管理、数据标注管理、智驾仿真管理、数据管理平台、模型研发平台等。通用区主要服务智能座舱、云车机研发等,以及研发系统统一的数据湖等。仿真区的主要业务包含碰撞、强度、电磁、气动、热管理等汽车运行的各方各面,需要吞噬大量高精度算力。
运行一年多来,从产品(新能源车)角度看,智算中心也获得不少阶段性成果,如:
NOA量产全面接入,给主流价格区间车型带来了更多智驾能力(如博越L),实现智能驾驶数据自动闭环;
推出了新一代座舱操作系统银河NOS,覆盖多款车型需求,让用户的车机交互体验与手机无异;
全场景AI服务,包括全场景AI模型、WOW壁纸、AI音乐律动、儿童绘本等,实际落地应用了大模型、AIGC等技术;
业内领先的大数据应用服务,如数据湖及治理能力,支持超过350万辆车的数据实时回传数据平台,治理水平达到0988,通过大数据应用提升产品用户服务、对用户实时进行关怀等;
可以为新能源车提供7×24小时的云端守护,如银河E8的神盾电池安全系统包括了云端的安全智能管控,可以做到事前预警、事中报警。
目前,作为国内车企中自建设备规模最大、综合算力领先、业务覆盖领域最广、高安全级别的智算中心。吉利也正联合宁畅等服务器厂商智能化支撑能力最强的智算中心,同时基于第四代英特尔® 至强® 可扩展处理器并应用落地的超大规模科学计算集群,实测双精度浮点算力达3.54 PFlops,基于全智能化业务的造车“超级大脑”,显著提升了吉利的整体研发效率。
数据闭环
决战智能驾驶下半场
目前进入市场的自动驾驶都经历了传感器、算法、算力的进化,需要做大量的数据标注、行为预警、道路点位等工作。但这些只是智能化的冰山一角,或者说,是自动驾驶的“上半场”。随着L2级辅助驾驶功能在新车渗透率超过30%,人们对智能驾驶提出了更高的要求,会逐渐开始关注冰山下的部分。但是,随着量产的智能化车辆保有量增加,数据量剧增,如何合规地获取数据,如何有效利用数据,并将数据转化为产品竞争力,还面临诸多挑战。
吉利汽车中央研究院智能驾驶中心数据平台部部长 陶世俊
在吉利汽车中央研究院智能驾驶中心数据平台部部长陶世俊看来,吉利是主机厂唯一具有合规采集资质的,利用车辆保有量优势,积累了大量数据。一辆车每个月的合规数据采集量是几个GB的量级,星睿智算中心每天的采集数据增长量达到了TB 水平。如此庞大的数据,如果不加以治理,其有效的数据量会比较低,没有办法直接使用。而且,如果没有一个很好的底座平台,整个数据的流转也会有很大的问题。在星睿智算中心积累海量数据的基础之上,还要不断在各个场景下进行优化,并建设数据闭环能力:感知数据闭环、地图数据闭环、驾驶数据闭环和用户数据闭环。
吉利基于用户车队及集团内运营车资源,积累了大量数据,以达到数据驱动感知提升的目标。尤其是有更多机会发现Corner Case(边角场景或极端场景)等,为规控、算法做一些优化的迭代。
依托吉利星睿智算中心和数据闭环技术能力,目标是要以车载端0.1倍的算力,用一套标准的数据格式,利用云端10倍的算力,达到100倍的采集效率。
数据合成:
大模型时代的助推器
数据闭环涉及到海量的数据,其中面临两个问题:其一,在自动驾驶领域需要长周期的数据采集,需要重点发掘Corner Case和Long tail场景,分布广、概率低,采集成本高。其二,所有算法或系统要上路之前,必须进行严苛的道路测试,需要覆盖很多的场景和安全隐患。
益企研究院创始人 张广彬
在益企研究院看来,前一种问题是属于“未知的危险”,后一种问题是“已知的危险”。前一种问题随着数据积累,会逐步被发现并转化为应覆盖的场景,但发现新的极端场景的难度也会越来越高。后一种问题则面临难以覆盖或复现的困境,譬如冻雨等特殊的气候情况,再如不合法的交通参与者。因此,近年来业界开始在视觉问题中引入合成数据(Synthetic Data),用于解决数据难以获取和标注的问题。
合成数据首先可以解决多样性的问题。Corner Case很难在真实道路上获取,甚至无法通过已知规则进行3D重建。但合成数据具有编程性,可以通过排列组合大量参数、引入随机化等方式,产生大量的场景。增加数据集中合成数据的数量,可以让训练出来的模型具有更好的泛化能力。
合成数据有很高的效率。真实数据的标注需要很高的成本,一张图需要1~5元,准确率也受限于人类的认知、情绪、疲劳等一致性问题。一般预标注模型精度不足,也需要大量的人工修正。而大模型自动化标注准确性高于人类,可以达到99.2%,且效率更高。合成数据有着合规安全的天然优势。真实采集的数据需要进行脱敏,如车牌号等等,也不便于在不同企业间共享。
吉利汽车中央研究院前瞻创新部人工智能模型开发总工程师 梁振宝
吉利汽车中央研究院前瞻创新部人工智能模型开发总工程师梁振宝介绍了吉利在合成数据方面的整体布局:依托智算中心的强大算力、生产中心业内最大的资产数据湖,以及自动驾驶大模型,构建一个虚拟的元宇宙世界,进行合成数据的采集,也包括了基于真实数据的一些自动化标注、同类聚合,还有一些标识化的数据治理。在此基础上可以提供一些应用上的服务能力,包括数据合成、场景合成、算法测试、法规认证以及标注和数据治理,还包括数字孪生的智慧城市。整个系统框架其实是围绕仿真内核,打通传统设计和物理传感器模型,包括自动化的评测体系和软硬件测试链路。
吉利的合成数据和仿真测试平台具有几大关键能力:
首先,依托于星睿智算中心的强大算力。
其次,拥有一套高逼真度的车辆模型,不论自车还是他车,它的特征与实车一致,包括其中的传感器建模。交通理论部分也不仅是简单的直行或左右变道,而是用AI的方式去驱动行为,包括压线、恶意变道等行为。这样才能确保合成数据或测试时有很好的逼真度。
其三,足够真实。通过人工智能大模型可以把合成的数据往真实的数据风格进行迁移,迁移后的风格和逼真度就会有所改善。
其四,基于AI自动建模,比人工建模效率高。根据真实的场景数据和法规限制,可以一小时内生成上千公里的行为场景,并进行光线、天气、光照的模拟。譬如做海外项目,可以根据当地规则进行搭建,而不需要再去国外进行采集。
最后,改善数据治理。利用这个平台,吉利回调了大量的数据,以往这些数据可能只是躺在数据湖里。经过分门别类的治理,有利于快速找到这些数据,也有利于分析数据的分布。研究中心做了一套基于图像分类的算子,有九大类策略、约120多个小类,包括各种天气、工况、障碍物,还有标识的一些识别算法,可以快速的把图片中所含的信息打上标签,之后就可以基于这个标签对所有的量产回传的数据进行统计和治理。
不止于智驾
电动化与智能化是相辅相成的,智能化给了汽车新的属性。传统的汽车是代步出行的工具,在智能网联时代、智慧城市当中,汽车是一个移动的智能网联节点,接收、产生、传递大量的数据。吉利“1个中心+3个平台+N个全场景数据智能化服务” 更是展示了吉利在智能汽车新时代的行业领先的智算代际优势,迎来属于吉利的“智算时代”。