01.佐罗与马—大语言模型在汽车行业的最大用途是自然语言控车
大语言模型在汽车行业的最大用途(如果不是之一的话)是让人类像控制马一样控制车辆。让车辆变成能听懂人话的灵性智能体。
人类和动物的感官是定性的,人类的思维方式是启发式的(也就是总结道理应用道理),因此人类的语言输出从根本上讲是定性而非定量的。
可以说在所有动物中,发展出定量思维的只有人类,但日常生活中最顶尖的定量思维者在 90%以上的场景中也是依靠定性语言表达和周遭交互的。
图 1 佐罗通过自然语言和有灵性的马互动(图片来自电影剧照)
佐罗召唤他的“黑旋风”“(马名)时,绝对不会说要求黑旋风先跑到 A 坐标点,速度 12 公里每小时;再从 A 跑到 B 坐标点,速度 8 公里每小时;最后停在 B 坐标点停留 5 秒,好让佐罗跳上马背,并且要提前放松马腿的“悬挂系统”,以缓解一个成年男性从两米高落下的冲击力。
如果这样说话,话还未说完,佐罗已经命丧敌手了。
幸运的是,马作为一种聪明的动物能听懂和理解主人的一部分的定性指令,并且自己决定具体行动方案。
今天的 chatGPT,规模可以高达 1750 billion 个浮点数参数,完全可以胜任一匹智慧马或者一辆智慧车的能力。
用 chatgpt 把人类的定性语言,无论是语音识别输入还是转换为定量的计算机参数,来控车。通俗说就是让车听懂人话,然后车进行定量的动态调整,人只给出定性的方向,车自己计算定量的量并执行。
02.大语言模型发展史就是计算机理解定性语言的发展史
大规模语言模型(Large Language Models, LLMs)的发展表
大语言模型的发展大多(如果不是全部的话)围绕对下一个词的预测概率展开,这通常被称为“自回归”模型。这些模型通过学习大量文本数据中的模式和规律,从而能够预测给定上下文下的下一个词的概率分布。
自回归模型
1. ELIZA (1966):
虽然不是严格意义上的语言模型,但 ELIZA 通过简单的模式匹配和模板填充来生成回复,其工作原理类似于早期的自回归模型。
2. PDP-10 版本的 ELIZA (1972):
进一步改进了对话能力,通过更复杂的模式匹配和模板替换来生成更自然的回复。
3. Markov 模型 (20 世纪初):
虽然不是专门针对语言设计,但一阶和高阶马尔可夫模型可以通过当前词预测下一个词的概率,为后续语言模型奠定了基础。
4. 隐马尔可夫模型 (HMM, 1980s):
HMM 主要用于语音识别和自然语言处理中的序列标注任务,如自动分词和词性标注。HMM 通过状态转移概率和输出概率来预测下一个词。
5. 神经网络语言模型 (2000s):
随着深度学习的兴起,神经网络开始用于语言模型。例如,Bengio 等人提出的模型通过前向传播来预测下一个词的概率。
6. RNN 语言模型 (2000s):
循环神经网络(RNN)通过隐藏层的状态传递来捕捉序列中的长期依赖关系,从而预测下一个词的概率。
7. LSTM (1997):
长短期记忆网络(LSTM)是一种特殊的 RNN,通过门控机制更好地捕捉长期依赖关系,从而提高对下一个词预测的准确性。
8. Word2Vec (2013):
虽然主要目的是生成词向量,但它通过浅层神经网络来预测上下文中的词,间接影响了后续的语言模型。
9. GloVe (2014):
通过全局词频统计来训练词向量,虽然不直接用于预测下一个词,但为后续模型提供了丰富的语义信息。
10. Transformer (2017):
基于注意力机制的模型架构,通过自注意力机制捕捉全局依赖关系,从而更准确地预测下一个词的概率。
11. BERT (2018):
通过双向编码器表示从 Transformer 而来,通过预训练和微调的方法在各种 NLP 任务上取得了突破性的成果。虽然主要是双向模型,但在某些应用中仍涉及预测下一个词的概率。
12. GPT 系列 (2018-至今):
a. GPT-1 (2018): 生成式预训练模型,展示了强大的文本生成能力。
b. GPT-2 (2019): 增加了模型规模,提升了性能。
c. GPT-3 (2020): 拥有超过 1750 亿参数,成为当时最大的语言模型。
d. InstructGPT (2022): 通过人类反馈强化学习(RLHF)进行微调,提高了指令跟随能力。
e. ChatGPT (2022): 基于 InstructGPT 的聊天机器人版本,能够更流畅地与用户互动。
f. GPT-4 (2024): 最新版本,进一步增强了模型的能力。
13. T5 (2019):
文本到文本的 Transformer 模型,可以应用于多种 NLP 任务,包括文本生成和翻译,其训练目标也是预测下一个词的概率。
14. RoBERTa (2019):
改进了 BERT 的训练方法,提高了性能,虽然主要是双向模型,但在某些应用中仍涉及预测下一个词的概率。
15. DALL-E (2021):
虽然主要功能是结合文本和图像生成,但其背后的文本生成部分仍然基于对下一个词的预测概率。
16. DeepSeek (2025):
中国自主研发的通用大语言模型体系,涵盖从 7B 到超千亿参数的完整模型矩阵,其核心仍然是通过预测下一个词的概率来进行文本生成和理解。
用户所谓对大语言模型的问答,其实仍然是“根据细分概率预测下一个词”,输入问题或者提示词(前件),大语言模型预测并输出回答(后件)。
基本游戏是“你说上句,我接下句”,并且下句的 word 是“手拉手”方式逐个产生的。“手拉手”方式逐个产生 是指每新生成一个词,这个词都会加入提示词,构成新的前件,来一起。
那么既然一直是这个思路,为何只有近年(2022)大语言模型才发展到实用阶段?
两个主要原因:
1、首先是算力的扩大(感谢黄仁勋和 NVIDA 吧),首先使得训练的巨大计算量能够在可行的时间内完成,其次实现概率近乎无限地细分,可以把总数多达几百万的候选词的每一个的概率细分到几百万分之一。某一个词的候选概率可能只有 0.000001%,但仍然在所有候选词中脱颖而出,因为其他候选词的概率比它还要低。以前受限于算力是无法把每个候选词的候选概率精细化到如此程度的,以前会认为所有这些词的候选概率都是 0。算力的扩大也是近年深度学习出现的原因,神经网络从十九世纪五十年代便出现,其研究在六七八十年代陷入低谷,在九十年代以后直至今日复兴,很大的原因在于早期神经网络的层数不够深,权重不够多,细分能力有限,计算效果不好,根本原因是硬件支持不了“深度”学习,深度的意思很直白,就是神经网络的层数。
2、第二个重要原因是以 transformer 为代表的注意力机制,使得大语言模型能够在不同上下文中动态地分辨每个词(更专业的,token)的重要性,大幅改善了语言模型回答的“切题性”。在自然语言处理领域,注意力机制的应用不仅仅改善了语言模型的切题性。它还提升了机器翻译、问答系统、文本摘要等任务的性能。通过对输入序列中的每个词进行加权的注意力分配,模型能够更好地捕捉到重要的语义和上下文信息,从而提高了模型的准确性和输出质量。
除了自然语言处理,注意力机制也在计算机视觉领域得到广泛应用。在图像处理中,注意力机制能够帮助模型更好地关注感兴趣的区域,提高目标检测、图像分类和图像生成等任务的性能。通过学习到的权重,模型能够聚焦于图像中与任务相关的重要区域,从而提高模型的准确性和鲁棒性。
03.历史数据和环境数据增强的定性控车
图 2 车载智脑设计图,依靠大语言模型来沟通人的定性和机械的定量
如下 AI 对话来自笔者所在企业本地部署大语言模型(使用 deepseek 7B 模型),用于车载智脑的预研工作:
问:乘客抱怨车内潮湿闷热,请给出具体且定量的解决步骤
AI 答:
进一步的,我们对车载智脑的设计不仅会把司乘人员的直接语言输入给大语言模型,而且会结合本车的历史大数据和实时环境大数据这两部分信息,来扩展司乘人员的直接语言。
其直接结果是,司乘人员相同的输入,我们的车载智脑会根据不同时间地点传感器数据做出不同的定量反应。
比如同样的乘客抱怨车内潮湿闷热,车载智脑会分析到在江南春季和在北国冬季(这种数据可以来自车联网,V2X 或者本车传感器),前者时会建议或者自动打开车窗开度以选择最节能方案,后者会降低电热座椅温度,并打开空调的干燥功能。
04.一车一脑,随车微调,万脑归宗
在 AI 界,有一个普遍的共识,即训练好的神经网络模型可以理解为“信息压缩”。也就是训练好的神经网络模型是对训练它的海量数据集的一个“信息压缩”。
但是这种“信息压缩”,并没有保存或泄露任何一条训练数据。因为训练好的模型中没有任何一条训练数据的原文,有且仅有巨量(数十亿到数百亿)的浮点数形式的权重参数。这些权重参数虽然体积庞大,但相比于训练它的训练数据,体积不及万分之一。
以笔者本地部署大模型为例,70B 的 LLM 模型,大约占据了 40G 硬盘空间,但根据报道其训练数据超过几百 T。
从”神经网络是数据的信息压缩“这一角度出发,每辆车上车载智脑(车载大语言模型),或者专为此车服务的云端大语言模型,随着车辆运行大数据的积累和实时根据新数据微调 fine-tune(只会微调,一般不会重训练大语言模型,因为成本太高)。
每一台车的车载智脑(本车或者云上)都会积累这辆车独一无二的信息,车主风格,载货类型,常走路线的特点,运营区域,主要用途(从模式推断),磨损情况等等。
企业读取每一台车的车载智脑的权重集合,暂时没有直接侵犯用户数据隐私(我们相信未来会有法规出台限制车载独有大模型间接泄露用户数据),却又收集到本企业所有产品的最详细的数据画像,用于产品的精细化的、细分市场、细分用户群体的改进。拥有这样信息优势的企业,将会在激烈的竞争中获得巨大的优势。
05.总 结
笔者博士毕业后第一份工作在某为消费者 BG(business group)做架构师,架构师们之间流传一个笑话:我们的产品(手机和平板)只有工科男才能学会使用,而且还得是硕士起步。
言外之意是产品操控方式过于复杂,不仅方式太多(根据经验统计,一部智能手机从购置到换代,其 70%以上的内置功能从没被使用过,甚至用户根本不知道这些功能的存在),而且要求用户必须是科技潮人,能理解大量的科技术语和概念。
而我们架构师团队的努力方向就是在 kiss(keep it simple and stupid)原则下保证“简化而不减配”,让小白用户也能轻松使用。
如今的车辆行业就是 10 年前的智能手机行业,车辆正在代替手机成为份额最大的智能终端,车辆的功能之丰富,安全性要求之高,价格之昂贵,都远非手机可比。
驾驶员通过适合人类的定性语言控车,大语言模型(笔者所在企业在设计阶段称为车载智脑)在后台把定性要求转化为定量操作指令交给车辆网关、各个域控制器和各个 MCU 处理执行,然后再把定量执行结果再次转换为人类理解的定性语言反馈给司乘人员,形成闭环。
本文认为这是大语言模型在车辆行业的 No.1 用途,并希望在业界引起讨论。
END
作者:直观解
来源:汽车电子与软件
推荐阅读:
更多汽车电子干货请关注汽车电子与软件专栏。欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。