讨论新锐大语言模型 deepseek 如何助力自动驾驶是车辆行业当前的热点问题。
按照一个自然合理的讨论过程,本文首先讨论自动驾驶(AD)有哪些环节构成,其次讨论 deepseek 的来龙去脉,再讨论自动驾驶哪些环节可以用到 deepseek,最后总结和展望。
01.自动驾驶的技术栈
自动驾驶的技术栈涵盖了多个领域,包括感知、决策、控制和系统集成等。
自动驾驶技术栈中的主要组成部分如下:
1. 传感器:自动驾驶系统使用多种传感器来获取环境信息,如雷达、摄像头、激光雷达、超声波传感器等。这些传感器提供关于周围物体、道路状况和其他交通参与者的数据。
2. 感知与感知融合:感知模块使用传感器数据进行物体检测、分类、跟踪和场景理解等任务。感知融合将来自不同传感器的数据进行整合,提供对环境的全局感知和理解。
3. 地图和定位:地图和定位模块为自动驾驶系统提供定位和地图信息。高精度地图用于提供车辆所处位置、车道信息、交通标志和交通规则等,以帮助车辆进行路径规划和决策。
4. 路径规划与决策:路径规划模块使用感知和地图数据,为车辆规划安全和高效的行驶路径。决策模块基于感知和路径规划的结果,制定实时决策策略,如车辆的转向、加减速和避让行为等。
5. 控制系统:控制系统模块将决策结果转化为车辆的具体控制指令。它涵盖了车辆的转向、加减速、制动和稳定控制等,以确保车辆按照决策模块的指令进行安全、平稳的行驶。
6. 人机交互:人机交互模块负责与驾驶员或乘客进行交互,如语音指令、触摸屏界面、图形显示等。它使驾驶员能够与自动驾驶系统进行沟通、了解当前状态和提供输入。
7. 安全和监控系统:安全和监控系统用于监测自动驾驶系统的状态,检测故障、异常和紧急情况,以确保系统的安全性和可靠性。它还可以提供实时监控、数据记录和故障排查等功能。
8. 数据处理和机器学习:大数据处理和机器学习在自动驾驶中起着重要作用。通过对大量数据进行处理和分析,可以提高感知、决策和预测的准确性和鲁棒性。
9. 算法开发和优化:算法开发和优化涉及开发和改进自动驾驶系统的核心算法,包括感知、路径规划、决策和控制等。不断改进算法可以提高系统性能和驾驶体验。
10. 系统集成和测试:自动驾驶技术栈的最后一个环节是系统集成和测试。这包括将各个模块整合到一个完整的系统中,并进行功能验证、安全性测试和实地路测等,以确保系统的稳定性和安全性。
虽然自动驾驶技术异常复杂和庞大,但概括言之,运行阶段的自动驾驶就是三大块:
第一块感知:感知到自身的位置速度和其它障碍物的位置速度,把它们的实时位置标注在地图上。特别注意,感知包括定位,也就是感知自身的真实位置。
这一块最重要的技术是广义的计算机视觉(CV,computer vision)。广义是指不仅处理摄像头数据,还会处理点云数据。点云数据一般是四元组(x,y,z,u),xyz 是点云像素点的三维坐标,u 是信号反射强度。
AD 车辆的感知,图片来自车云网
第二块决策或者叫规划。现在车辆已经知道自己的位置和所有潜在障碍物的位置,并且还可以根据障碍物的速度方向(如果是动态的话)预测障碍物短期新的位置。又知道自己要去的位置,那么就可以在地图上用图论算法规划路径,路径连接本车当前位置和目标位置,中途避开所有障碍物。
这一块核心技术是路径的图论规划,包括:
a、图论算路算法
b、路径平滑(不能光有连线,还得光滑)
c、速度规划(不光有光滑连线,还有连线上每一个点的行车速度)
为了理解算路技术栈和大语言模型之间的技术差异,我们详述一下图论中的算路算法。它是一种在图结构数据上进行路径计算和搜索的重要方法。它主要研究如何在图中的节点与节点之间找到一条或多条有效的路径,以满足特定的需求,比如最短路径、最快路径或者最小成本路径等,而且所有路径可以指定避开的节点(避障)。
在图论中,一个图由节点和边组成,节点代表对象或者事件,而边则表示节点之间的关系或者连接。算路算法就是通过对这些节点和边的分析,来寻找满足特定条件的路径。
常见的图论算路算法包括迪杰斯特拉算法(Dijkstra's algorithm),它用于计算一个节点到其他所有节点的最短路径;贝尔曼-福特算法(Bellman-Ford algorithm),它可以处理带有负权重边的图,并且能够检测负权重环;弗洛伊德-沃沙尔算法(Floyd-Warshall algorithm),它用于计算图中所有节点对之间的最短路径;以及 A*搜索算法,它是一种启发式搜索算法,常用于路径寻找和图遍历等问题。
这些算法在网络路由、地图导航、社交网络分析、运输系统优化等多个领域都有广泛的应用。例如,在网络路由中,路由器使用算路算法来确定数据包从源头到目的地的最佳路径;在地图导航系统中,算路算法帮助用户找到从一个地点到另一个地点的最快或者最短路线。
AD 车辆算路,图片来自百度 Apollo
AD 车辆算路,图片来自 tesla
第三块是控制。路径已经决定,但还得沿着路经精确地开过去。控制的核心词是”精确地“执行。车辆是一个复杂的机械系统,每一个执行环节都有自己的动态误差和静态误差。道路行车同样复杂,哪怕左轮不小心压到一个小石子,都会对控制造成随机干扰。
控制的核心技术在于各种滤波算法,其中最为著名的当属卡尔曼滤波。卡尔曼滤波是一种高效的递归滤波器,它能够在存在噪声的情况下,通过系统的动态模型和观测数据,估计出系统的状态。这种算法在导航、自动控制、信号处理等领域有着广泛的应用。
除了滤波算法,控制技术还涉及到多种控制算法,其中最为常用的是比例-积分-微分控制器,简称 PID 控制器。PID 控制器因其结构简单、易于实现而被广泛应用于工业自动化领域。它通过比例(P)、积分(I)和微分(D)三个环节来调节系统的输出,以达到预期的控制效果。比例环节能够快速响应偏差,积分环节可以消除稳态误差,而微分环节则有助于抑制系统的超调和振荡。通过合理调整这三个参数,PID 控制器能够实现对系统稳定性和响应速度的良好控制。
机器人在滤波算法和 pid 控制下前往指定地点,图片来自 ResearchGate
除了上面三大块外,还有比较独立的 SLAM 技术。SLAM(Simultaneous Localization and Mapping,同时定位与地图构建)技术已经成为机器人领域的研究热点。通过融合激光雷达、摄像头、IMU 等多种传感器数据,SLAM 技术赋予了机器人(无人驾驶车船无人机都属于广义的机器人)自主导航与环境感知的能力。
由上可见,感知阶段的主要处理对象是像素点(包括图像和点云);规划阶段的主要处理对象是离散的图论节点;控制阶段的主要处理对象是反映车辆运动状态的浮点数。
那么何为 deepseek?deepseek 的主要处理对象又是什么?
02.何为 deepseek?
deepseek 对标 openAI 的 GPT 系列大语言模型,和 chatGPT 一样,它的主要处理对象是 token。
那么何为 token?
在自然语言处理(NLP)领域,token 是一个极为重要的概念。它通常指代文本数据中的最小意义单位。一个 token 可以是单词、标点符号、数字,甚至是单个字符。在处理诸如句子、段落乃至整篇文章等文本内容时,将文本划分成一个个 token 是一种常见的预处理步骤。
Tokenization(分词)的过程就是将文本转化为 token 序列的过程。这个过程可以通过不同的方法和技术来实现,例如基于规则的分词、基于统计的分词以及深度学习模型等。通过精确的 tokenization,计算机能够更好地理解和分析人类语言,从而为后续的自然语言理解和生成任务奠定基础。
此外,token 在自然语言处理中的应用非常广泛,包括但不限于机器翻译、情感分析、问答系统、文本摘要等。在这些应用中,token 不仅作为输入数据的基本单元,还在特征提取、模型训练等环节发挥着关键作用。因此,对 token 的深入理解和合理运用,对于提升自然语言处理系统的性能具有重要意义。
我们举一个例子,将句子“The non-autonomous vehicle can't safely navigated through the busy city traffic.”分解为 tokens,可以按照空格和标点符号进行分词。下面是可能的一种分词方式:
[
"The",
"non",
"-",
"autonomous",
"vehicle",
"can",
"'t",
"safely",
"navigated",
"through",
"the",
"busy",
"city",
"traffic",
"."
]
可见 token 是比 word 更小的最小语言单元。请注意到 can't 这个词,被分解为了 can 和‘t 两个 token。
deepseek 架构图,来自 deepseek 公司公开论文
下面我们列出 openAI 和 Deep seek 两家公司的对比:
在以上 deepseek 与 openAI 的量化对比中,可以清晰看到 DeepSeek 的主要处理对象是 token,并且无论在输入还是输出,deepseek 每一个 token 的处理成本远低于 openAI。
03.自动驾驶中应用多模态的 deepseek
自动驾驶感知阶段的主要处理对象是像素点(包括图像和点云);规划阶段的主要处理对象是离散的图论节点;控制阶段的主要处理对象是反映车辆运动状态的浮点数。而 deepseek 的主要处理对象是作为语言原子单元的 token。二者似乎并不一致。
如何处理这一点,好为自动驾驶车辆用上最新的 AI 科技?秘诀在于大语言模型的多模态扩展。
大语言模型的多模态扩展是指将语言模型的能力从仅处理文本数据扩展到能够理解和生成多种类型的数据,包括图像、音频、视频等多种形式的信息。这种扩展使得大语言模型能够更好地模拟人类的认知能力,从而在更广泛的场景中发挥作用。
以下是几种常见的多模态扩展方法和技术:
1. 多模态输入处理:这种方法允许模型同时处理文本和其他类型的输入数据(如图像、音频)。例如,一个模型可能需要理解一张图片并根据图片内容生成描述性的文本。为了实现这一点,模型通常会使用特定的架构来分别处理不同类型的输入,并将它们融合在一起进行最终的输出。
2. 跨模态理解与生成:这涉及到在不同模态之间建立联系,比如通过文本描述生成图像或根据图像生成描述性文本。这要求模型具备跨模态的知识表示学习能力,以便在不同的数据类型之间建立有效的映射关系。
3. 注意力机制:注意力机制可以帮助模型在处理多模态数据时关注最重要的部分。例如,在处理图文混排的输入时,模型可以通过注意力机制决定是更多地关注图像还是文本,或者两者之间的相互作用。
有了多模态技术加持,大语言模型才能高效增强自动驾驶技术。Deepseek 产品家族中的 deep seek V3 就是一种多模态大语言模型。
我们在此罗列一些已知的自动驾驶中应用多模态的 deepseek 的场景,而且这些场景还在持续增加中:
1. 多模态环境感知增强
1.1 技术实现:
- 传感器融合:将摄像头图像、激光雷达点云、毫米波雷达信号等输入 DeepSeek-V3,通过跨模态对齐技术(如注意力机制)实现数据融合。例如,模型可将图像中的红绿灯识别与雷达的测距数据进行时空对齐。
- 开放世界理解:利用大模型的开放域知识,识别训练数据中未覆盖的罕见物体(如特殊工程车辆、动物),弥补传统感知模型的长尾问题。
- 语义场景分割:通过视觉-语言联合建模,生成道路场景的语义描述(如“湿滑路面”“临时施工区域”),为决策提供上下文信息。
1.2 工程挑战:
- 实时性优化:需通过模型轻量化(如知识蒸馏)或边缘计算部署,将推理延迟压缩至毫秒级。
- 不确定度校准:对模型输出的置信度进行量化,避免错误感知引发连锁风险。
2. 可解释决策与因果推理
2.1 技术实现:
- 因果决策树:将驾驶策略分解为“IF-THEN”规则链,由 DeepSeek 生成决策逻辑的自然语言解释(如“减速因为前方行人正在看手机可能闯入车道”)。
- 博弈建模:模拟其他交通参与者(车辆、行人)的意图预测,构建博弈论框架下的交互决策。
- 伦理权衡框架:针对“电车难题”类极端场景,利用大模型的社会常识生成符合伦理的优先级判断。
2.2 工程挑战:
- 逻辑可验证性:需将自然语言决策转化为形式化验证框架(如时序逻辑),确保符合 ISO 26262 功能安全标准。
- 实时推理成本:复杂因果链推理需设计分层决策机制,高频操作(如跟车)由传统控制算法处理,低频复杂场景触发大模型介入。
3. 动态高精地图构建
3.1 技术实现:
- 在线语义建图:通过视觉 SLAM+大模型实时生成道路拓扑结构的语义描述(如“第三车道因施工封闭”),替代预加载高精地图。
- 众包地图更新:车辆群将局部感知结果上传至云端,DeepSeek-V3 整合多源数据生成动态地图更新包。
- 长尾场景标注:自动识别道路异常(如塌陷、遗落货物),通过 Few-shot 学习快速生成标注数据。
3.2 工程挑战:
- 数据一致性:需解决多车感知结果的时空对齐和冲突消解。
- 通信延迟容忍:设计去中心化地图更新协议,在弱网环境下仍能保障基础功能。
4. 人机协同驾驶
4.1 技术实现:
- 意图理解与接管预测:通过车内摄像头和语音输入,实时分析驾驶员状态(如疲劳、分心),预测接管需求时机。
- 自然语言交互:支持语音指令细粒度控制(如“在下个便利店停车”),同时解释自动驾驶系统的行为(如“即将变道超车因为当前车速低于限速”)。
- 个性化策略适配:学习驾驶员习惯(如跟车距离偏好、变道激进程度),调整自动驾驶策略参数。
4.2 工程挑战:
- 多模态信号融合:需同步处理语音、手势、生物传感器等多通道输入。
- 隐私保护:驾驶员行为数据需本地化处理,避免云端泄露风险。
5. 仿真与影子模式迭代
自动驾驶的影子模式(shadow mode)是一种后台优化自动驾驶算法的方法。
当车辆处于有人驾驶状态时,自动驾驶系统的传感器会不断采集路况信息,包括道路状况、车辆位置、行人动态等。同时,自动驾驶算法会根据这些信息模拟出相应的驾驶决策。然而,这些决策并不会直接控制车辆,而是与驾驶员的实际操作进行对比。
如果自动驾驶算法的模拟决策与驾驶员的操作一致,说明算法在该场景下表现良好;如果存在差异,特别是当算法决策与驾驶员操作差异超过阈值时,系统触发数据回传机制。这些高价值数据(包括路况和驾驶员对应操作,作为 feature-label 对应的训练数据)将被上传到云端,用于持续优化自动驾驶算法。
影子模式可以简单理解为自动驾驶世界的”虚拟炒股“。
5.1 技术实现:
- 场景生成引擎:利用 DeepSeek-V3 生成涵盖极端天气、事故场景的虚拟测试用例,加速 Corner Case 覆盖。
- 自动标注工具:对实车采集的未标注数据,通过提示工程(Prompt Engineering)生成高质量训练标签。
- 在线持续学习:在影子模式下对比人类驾驶与 AI 决策差异,自动生成强化学习奖励函数。
5.2 工程挑战:
- 仿真保真度:需物理引擎与大模型生成场景的耦合优化。
- 数据闭环效率:从数据采集到模型更新的端到端延迟需压缩至小时级。
6. 应用案例设想
- 城市 NOA(导航辅助驾驶):DeepSeek 实时解析复杂路口交通警察手势,动态调整通行策略。
- 无地图越野驾驶:通过视觉+语言提示(如“沿车辙痕迹行驶”)实现非结构化道路导航。
- 应急避险系统:识别山体滑坡前的细微地质变化迹象(如鸟类异常飞行模式),触发预防性制动。
04.总结与展望
DeepSeek-V3 需与传统的自动驾驶技术栈(如控制理论、SLAM、强化学习)深度融合,其核心价值在于解决开放环境下的认知智能问题,而非替代现有感知-决策-控制链路。实际落地需遵循“场景化裁剪、功能安全优先”的原则,逐步从 L2+辅助驾驶向高阶自动驾驶演进。
笔者并不指望 deepseek 取代卷积神经网络 CNN、光流 optical flow、强化学习 RL 之类,已经在自动驾驶领域广泛使用的深度学习模型,而是扬长避短,发挥它们各自的长处,结合起来使用。
而且 deepseek 和任何深度学习大模型一样,面临通用的关键限制与应对方法:
1. 确定性保障(神经网络可解释性):大模型的概率性输出需通过安全封装层(如输出范围约束、多模型(MoE)投票)转化为确定性控制信号。
2. 功耗与算力:需设计专用 NPU 架构,支持稀疏化计算与混合精度推理。而且计算功耗在车载场景下会显著缩短车载电池的续航力。最好是简单决策本车执行,复杂操作上传云端执行。
3. 法规符合性:决策过程需满足 ASIL-D 级可追溯性要求,可能采用“白盒化”子模块(如显式规则引擎与大模型协同)。一般来说,是显式规则模型对大模型的输出进行实时审计,一直到大模型生成满足审计的输出才采纳。
END
作者:直观解
来源:汽车电子与软件
推荐阅读:
更多汽车电子干货请关注汽车电子与软件专栏。欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。