一文综述，未来已来 | 视觉和大语言模型的未来是什么？必然结连理实现多模态大模型 - 极术社区

探索多模态语言模型整合了多种数据类型，如图像、文本、语言、音频等异质性。尽管最新的大型语言模型在基于文本的任务上表现出色，但它们往往难以理解和处理其他数据类型。多模态模型通过结合各种模态来解决这个问题，从而实现对多样化数据的更全面理解。
本文首先定义了多模态的概念，并探讨了多模态算法的历史发展。此外，作者介绍了一系列多模态产品，主要关注了各大技术公司的努力。提供了一份实际指南，提供了多模态模型技术方面的洞察。此外，作者提供了一份最新算法和常用数据集的汇总，为研究人员提供了宝贵的实验和评估资源。
最后，作者探讨了多模态模型的应用，并讨论了与它们的发展相关的挑战。通过解决这些问题，本文旨在促进对多模态模型及其在各个领域的潜力的更深入的理解。

I Introduction

多模态模型结合了多种数据类型，如图像、文本、音频等。传统的语言模型（LLMs）主要针对文本数据进行训练和应用，但在理解其他数据类型方面存在局限性。纯文本语言模型，如GPT-3、BERT和RoBERTa，在文本生成和编码等任务上表现出色，但在理解和处理其他数据类型方面存在不足。

为了应对这个问题，多模态语言模型将多种数据类型集成在一起，克服了纯文本模型的局限性，为处理多样化数据类型开辟了可能性。GPT-4是多模态语言模型的一个优秀实例。它可以接受以图像和文本形式输入的数据，并在各种基准测试中表现出与人类相当的水平。多模态感知是实现通用人工智能的基本组成部分，因为它对于知识的获取和与现实世界的交互至关重要。

此外，多模态输入的应用极大地扩展了语言模型在高端领域的潜力，如多模态机器人技术、文档智能和机器人技术等。研究表明，对多模态感知的原生支持为将多模态语言模型应用于新任务提供了新的机会。通过广泛的实验，多模态语言模型在常识推理方面相对于单模态模型表现出更优越的性能，突显了跨模态迁移在知识获取方面的优势。

近年来，多模态模型的发展展示了额外的应用可能性。除了文本生成模型外，多模态模型在诸如人机交互、机器人控制、图像搜索和语音生成等领域也得到了越来越广泛的应用。然而，将语言模型的能力转移到多模态文本和图像领域仍然是一个活跃的研究领域，因为纯文本语言模型通常仅在文本语料库上进行训练，缺乏对视觉信号的感知能力。关于多模态模型的几篇综述文章，但每篇文章关注的焦点都不同。

Summaira等人[7]根据模式将不同的模态分类，并详细介绍了它们的应用。Wang等人[8]呈现了用于多模态大规模模型的最新算法和最近实验中使用的数据集的综合汇编，为读者提供了便利。近年来，Yin等人[9]在其综述中分类并区分了近年来各种多模态算法。

然而，这些文章主要从大规模模型的介绍开始，缺乏对多模态模型发展过程和实际应用的概述。本文旨在通过从多模态的基本定义入手，填补这一空白。它概述了多模态算法的历史发展，并讨论了该领域中的潜在应用和挑战。

作者首先定义了多模态模型/算法的概念，然后深入探讨了多模态算法的演变历史。作者提供了一个实际指南，涵盖了与多模态模型相关的各种技术方面，包括知识表示、学习目标选择、模型构建、信息融合和提示的使用等。作者回顾了多模态模型中使用的最新算法，并包括常用的数据集。这为未来的研究和评估提供了基本资源。最后，作者探讨了多模态模型的几个应用，并讨论了它们当前发展所面临的几个关键挑战。

本文其余部分的组织如下：在第二部分，作者讨论多模态的相关概念；在第三部分，作者针对技术要点提供了实际指南；此外，在第四部分，作者组织了相关模型。此外，作者在第五部分提出了多模态和各种类型的数据集的几个有前途的方向，并在第六部分强调了这些方向所面临的挑战。最后，作者在第七部分总结了这次调查。

II Related Concepts

多模态是指通过多个模态来表达或感知复杂的事物，如图1所示。

多模态可以分为同质模态，如来自两个不同摄像头的图像，以及异质模态，如图像与文本语言之间的关系。

从语义感知的角度来看，多模态数据是指将来自各种感觉模态的信息（如视觉、听觉、触觉和嗅觉输入）进行集成，形成对环境统一的、有意义的表示。
从数据的角度来看，多模态数据可以被视为不同数据类型的组合，如图像、数值数据、文本、符号、音频、时间序列或由集合、树、图以及来自不同数据库或知识库的多种信息资源的复杂数据结构组成。

探索和分析异质数据源可以被视为多模态学习。使用多模态数据可以实现对事物更全面和整体的表示，使得多模态研究成为重要的研究领域。通过利用多模态方法，在情感分析、机器翻译、自然语言处理等领域以及尖端生物医学研究等方面取得了重要突破。在多模态研究的演变过程中，可以识别出四个明显的阶段，如图2所示。

单模态（1980-2000）。它依赖于基本的计算能力。在20世纪80年代，统计算法和图像处理技术被用于面部识别系统。这项工作奠定了该领域早期方法的基石。与此同时，IBM的研究团队在语音识别方面做出了重要贡献，例如，使用隐马尔可夫模型（HMMs），这提高了语音识别技术的准确性和可靠性。

在20世纪90年代，进一步取得了进展。Kanade的团队开发了Eigenfaces方法用于面部识别。这一方法利用主成分分析（PCA）提取面部特征，并根据人脸图像中的统计模式识别个体。像Dragon Systems这样的公司专注于提高语音识别系统，开发可以将口头语言转换为越来越准确的文字的技术。

模态转换（2000-2010）。在这个阶段，研究人员投入了大量资源研究人机交互。目标是使计算机模拟人类行为，并在人们的日常生活中提高便利性。这个时期发生了几个显著的进步。在2001年，AMI项目提出了利用计算机记录和处理会议数据的想法。这个项目的目标是开发能够分析会议中音频、视频和文本数据的技术，从而实现更高效的信息检索和协作。

在2003年，CALO项目做出了重大贡献，引入了聊天机器人技术，成为了Siri的前身。CALO项目，全称为"认知助手学习与组织"，旨在开发一个能够理解和回应人类语言，并执行任务的智能虚拟助手。在2008年，社交信号处理（SSP）项目提出了社交信号处理网络的概念。这个项目专注于分析非语言线索，如面部表情、手势和语音语调，以了解社交互动并促进更自然的人机通信。

模态融合（2010-2020）。在这个阶段，深度学习和神经网络技术的集成导致了该领域的显著进步。2011年，Ngiam介绍了一种开创性的多模态深度学习算法。这一算法通过实现多个模态（如图像和文本）的融合和分析，在推进该领域方面发挥了关键作用。它促进了不同模态特征的联合学习，并在图像分类、语音识别和视频分析等任务中提高了性能。

在2012年，一种基于深度伯努利机器（DBMs）的多模态学习算法旨在模拟不同模态之间的依赖和交互。通过利用深度学习和DBMs的生成建模能力，作者可以捕获不同模态之间的复杂关系，并提高对复杂多模态数据的理解和表示。在2016年，引入了一种具有语义注意力的神经图像描述算法，彻底改变了图像的处理和描述方式。这种算法具有生成图像描述性标题的功能，实现了自动化图像理解与解释。通过将计算机视觉技术与深度神经网络相结合，该算法能够分析图像的视觉内容并生成类似人类的描述，提高了可访问性，并实现了自动图像标签、图像搜索和为视力障碍者提供辅助技术的应用。

大规模多模态（2020-7）。大规模模型的快速发展为多模态算法开辟了新的机会。2021年，CLIP模型被引入。通过打破固定类别标签的传统范式，CLIP释放了使用预先确定类别计数的庞大数据集的负担。相反，CLIP 利用无监督技术预测图像文本对之间的相似性或生成它们。2022年，OpenAI 的 DALL-E 2 产品利用了基于 CLIP 图像嵌入的扩散模型。它可以根据文本提示生成高质量的图像和艺术品。

微软还推出了 BEiT-3（BERT 预训练图像Transformer）。BEiT-3 使用共享的多向Transformer结构通过遮挡数据完成预训练。它可以迁移到视觉和视觉语言的各种下游任务。2023年，微软推出了 KOSMOS-1。KOSMOS-1 是一种尖端的多模态语言模型，具有令人印象深刻的多种能力，包括处理和集成来自不同模态的信息、精确遵循指令以及通过上下文学习适应新的情境。

这种模型将语言和感知相结合，使其能够看到并说话，使其在视觉对话、图像描述和零样本图像分类等任务上变得熟练。另一个显著的模型，即 PaLM-E，将先进的语言和视觉模型相结合，例如 PaLM 和 ViT-22B。它们在视觉任务如目标检测和场景分类方面表现出色，同时展示出在语言任务如生成代码和解决数学方程方面的熟练程度。PaLM-E为视觉语言性能提供了一个新的基准，无需针对特定任务进行微调。

III Practical Guide for Technical Points

多模态大规模模型的技术要点包括但不限于：知识表示、学习目标选择、模型结构构建、信息融合和提示的使用，如图3所示。

知识表示。文本和图像都需要进行分词和嵌入。分词是模型处理输入的基本单位，而嵌入是用于计算的分词的向量表示。在文本的情况下，Word2Vec通常用于分词，包括一些方法如CBOW和Skip-gram。尽管 Word2Vec 在计算效率方面具有优势，但它受到词汇限制。因此，子词分词方法，如字节对编码，将单词划分为更小的单元。这种方法已应用于各种Transformer模型，如 BERT。

相比之下，图像分词比文本分词更为复杂。它可以分为三类，包括基于区域的、基于网格的和基于块的方法。

基于区域的方法利用预训练的目标检测器来提取特征。
基于网格的方法直接将卷积神经网络应用于图像，提取基于网格的信息。
虽然基于块的方法涉及将图像划分为更小的块并从这些块中提取线性投影，但根据 METER 模型的数据，优化视觉特征方面的效果比优化文本方面具有更大的影响。

在构建多模态预训练模型时，视觉特征的嵌入层或视觉特征的复杂性超过文本特征，突显了视觉信息的重要性。多模态模型可以从视觉特征中学习更多的知识。

学习目标选择。这在多模态预训练中至关重要。目前，多模态预训练中常见的学习任务包括图像文本对比（ITC）、掩码语言建模（MLM）、掩码视觉建模（MVM）和图像文本匹配（TM）。ITC 涉及通过对比学习构建正负样本对，将图像和文本对齐。

此外，通过利用 MLM 和 MVM 技术，它可以学习通过组合语言知识和视觉线索来从遮蔽的语言标记中重构来推断语言和视觉数据之间的细微联系。这样，它就能提高理解并生成多模态内容的能力。TM 可以看作是一个二分类任务，旨在预测一个图像和文本对是否匹配。通常，结合使用不同的学习目标可以增强多模态模型的性能。

例如，在 UNITER 模型中，通常采用多个学习目标，如 MLM 和 ITC，并能在各种专业场景中表现良好。然而，使用过多的学习目标并不总是能取得理想的结果。这一实验结果在 METER 上得到了验证。

模型构建。根据不同的模型结构，多模态模型可以分为仅包含编码器的模型和编码器-解码器模型。仅包含编码器的模型仅使用 Transformer 的编码器部分。多模态输入直接由编码器处理并产生输出。

常见的仅包含编码器的模型包括 CLIP 和 ALBEF，它们适合图像-文本检索等任务，但并不适合图像描述等任务。编码器-解码器模型则包括 Transformer 的编码器和解码器部分。

解码器接收先前生成的标记及其自身的输出，以自回归方式生成输出序列。编码器-解码器模型，如 T5 和 SimVLM，利用解码器的功能，适合生成任务，但可能并不适合图像-文本检索等任务。

信息融合。在分别编码不同模态之后，需要设计一个多模态编码器。根据不同的融合方法，多模态模型可以分为融合编码器模型和双编码器模型。融合编码器利用融合方法在模态之间进行交互。通过自注意或交叉注意操作，融合编码器生成模态的融合表示。

融合方法主要包括单流和双流方法：

单流方法假设两种模态之间存在简单的对齐或相关性，并在将它们连接之前直接应用自注意机制处理模态。
双流模型假设内模态和跨模态交互应该分别建模，以使用交叉注意力机制获得更好的多模态表示。融合编码器在不同层次上建模跨模态交互，并在某些推理任务中取得了良好的性能。

然而，在图像文本检索等任务中，编码所有图像文本对之间的交互会导致推理速度较慢。双编码器采用独立的单模态编码器来编码两种模态。在足够编码之后，使用简单的点积或浅层注意力层来计算它们之间的相似度分数，而不依赖于复杂的 Transformer 结构。融合编码器适合推理任务，而双编码器适合检索任务。

因此，作者结合不同的模型架构或信息融合方法来增强多模态模型的能力。这也是实现多模态统一背后的机制。例如，VLMO 采用“三位专家”方法，在仅使用图像、仅使用文本和图像文本数据上进行预训练，以处理不同的模态，并在推理和检索任务上取得了良好的性能。

提示的使用。提示方法主要用于减少在下游任务中的预训练和微调之间的差距。通过修改下游任务的模板，提示旨在最小化预训练和微调之间的差异，从而降低微调的成本并提高模型在下游应用中的性能。它具有处理零或小数据样本的能力，这在各种语言模型中得到了广泛应用。

提示方法在多模态预训练任务中也起着关键作用。例如，在视觉 ChatGPT中，使用提示管理器来生成有助于 ChatGPT 理解和生成相关图像的有信息提示。在 CLIP 中，提示方法在零样本任务中应用，通过为文本生成有信息提示来提高性能。

IV Practical Guide for Algorithms

多模态算法可以分为两类，包括基础模型和大规模多模态预训练模型。基础模态是多模态的基本框架，许多基于它的新型大规模多模态预训练模型得到了改进。

Foundation model

Transformer 是在2017年提出的，打破了传统深度学习模型，在机器翻译任务上取得了良好的性能。它因能够在大规模语料库上进行自监督预训练，并在下游任务上进行微调而引起了广泛关注。这种范式已经被许多预训练大规模模型所遵循。Transformer 的权重共享特性与输入序列长度无关，使其适合多模态应用。模型中的某些模块可以共享权重参数。

Transformer 中权重共享概念的出现是因为自注意模块和前馈神经网络不受输入序列长度的影响。这种权重共享概念也可以应用于多模态模型。例如，在涉及图像和文本的多模态设置中，从图像训练中学习的权重参数可以用于文本训练，而结果仍然有效，有时甚至无需微调。

VIT。Transformer 模型在自然语言处理（NLP）领域中的出色性能，以及其自注意力机制，在计算机视觉领域引起了广泛关注。许多研究开始将 Transformer 机制应用于计算机视觉任务。

然而，Transformer 在输入数据大小方面存在限制，需要谨慎考虑输入策略。Google 借鉴了之前的工作，提出了视觉Transformer（ViT）模型，并利用强大的计算资源使其具有优势。

ViT 模型通过将图像分割成 patch（例如，将图像分成 16 个 patch）来解决输入大小限制。这些 patch 然后通过线性映射被处理和转换为 Transformer 可以处理的形式。这一突破成功地弥合了计算机视觉和 NLP 之间的鸿沟。ViT 不仅使 Transformer 能够处理图像，而且还引入了比以前方法更高效的图像特征提取策略。如果 ViT 可以被视为将 Transformer 模型适应到计算机视觉中的尝试，那么 BEiT 可以被视为将 BERT 模型适应到计算机视觉中的尝试。

生成式预训练是自监督学习中一种重要方法和训练目标，其中模型无需依赖标签或手动注释来学习如何生成数据。生成式预训练在自然语言处理领域取得了显著成功。

BEiT 解决了计算机视觉领域生成式预训练的两个关键挑战。第一个挑战是如何将图像信息转换为类似于 NLP 的离散标记。BEiT 使用离散视觉嵌入聚合方法对图像进行离散化。第二个挑战是如何有效地将图像信息纳入预训练过程。BEiT 利用了已经建立的 ViT 结构来处理图像信息。通过解决这两个问题，BEiT 成功地将掩码语言建模（MLM）和掩码图像建模（MIM）方法应用到计算机视觉领域，将生成式预训练引入计算机视觉领域，并实现了大规模的自监督预训练。

Large-scale multimodal pre-trained models

视觉聊天机器人结合了不同的视觉基础模型（VFMs）来处理各种视觉任务，如图像理解和生成。这使得用户可以发送和接收不仅语言，还可以图像，实现需要多个 AI 模型多步骤协作的复杂视觉问题和指令。该系统还引入了提示管理器，它有助于以迭代方式利用 VFMs 并接收它们的反馈。这种迭代过程将持续，直到系统满足用户需求或达到结束条件。

通过在 ChatGPT 中注入视觉模型信息，并通过提示来将视觉特征与文本空间对齐，增强了 ChatGPT 的视觉理解和生成能力。视觉聊天机器人具有处理语言和图像以外的模态的能力。尽管该系统最初专注于语言和图像，但它为将其他模态（如视频或声音）纳入系统提供了可能性。这种灵活性消除了每次引入新的模态或功能时都需要训练全新的多模态模型的需求。

多模态反应（MM-REACT）将 ChatGPT 与各种视觉模型相结合，以实现多模态任务，主要通过 VQA 格式进行展示。在回答问题时，ChatGPT 将视觉模型作为工具，并根据具体问题决定是否使用它们。

这种系统与之前使用描述模型和语言图像模型进行 VQA 的方法有相似之处。在这些方法中，描述模型将图像转换为文本，然后由更大模型作为证据来生成答案。然而，MM-REACT 不同之处在于它具有自主决定是否调用视觉模型的能力。

冻结引入了在多模态上下文学习中使用语言模型的新概念。具体方法涉及使用视觉编码器将图像转换为表示，然后将这些表示与文本连接，创建一个集成两种模态的组合数据格式。随后，模型使用自回归方法预测下一个标记。在训练过程中，LLM 保持冻结，而视觉编码器是可训练的。这使得最终模型既能保留语言建模能力，又能在一个多模态环境中进行上下文学习。

BLIP-2 采用类似于 Flamingo 在编码图像方面的方法，利用 Qformer 模型提取图像特征。Qformer 扮演的角色类似于 Flamingo 中的感知重采样器。然后，通过交叉注意力，该模型促进图像文本互动。在训练期间，BLIP-2 冻结了视觉编码器和 LLM，仅对 Qformer 进行微调。然而，当在特定的下游任务数据集上进行微调时，BLIP-2 解锁了视觉编码器并将其与 Qformer 一同进行微调。

BLIP-2 的训练过程包括两个阶段：

仅 Qformer 和视觉编码器参与训练。他们使用经典的多元模态预训练任务，如图像文本匹配、对比学习和图像定位文本生成，进行训练。这一阶段使 Qformer 学习如何快速从视觉编码器中提取与文本相关的特征。
将 Qformer 编码的向量插入到 LLM 中进行描述生成。BLIP-2 在零样本和微调场景下对 VQA 都表现出良好的性能。对于相同任务，它在不同的数据集之间具有很好的迁移性。

LLaMA-Adapter 在 LLaMA 中引入了高效的微调方法，通过插入可调整的适配器来实现。适配器是连接到 Transformer 最后层的适应提示向量，作为可调整的参数。它们可以扩展到多模态场景。当应用于多模态设置时，首先使用一个冻结的视觉编码器将图像编码为多尺度特征向量。这些向量通过串联和投影操作进行聚合，然后按元素逐个添加到适应提示向量中。

MiniGPT-4 是根据 BLIP-2 和 Vicuna 的组合来复制 GPT-4 的一些功能的。它直接将 Qformer 和视觉编码器从 BLIP-2 中传输过来，并将 LLM 和它们一起冻结，只留下一个线性层用于视觉方面的微调。这种可调整参数的压缩使得模型大小为 15 M。

此外，采用两阶段微调策略:

描述生成作为训练任务。模型生成多个描述，然后使用 ChatGPT 重新编写以创建详细而生动的描述。
构建一组高质量的图像文本对用于进一步微调。这组图像文本对用于优化模型。

LLaVA 和 MiniGPT-4 类似，都旨在实现多模态指令微调。然而，它们在数据生成和训练策略方面有所不同，导致了 LLaVA 模型的开发。在数据生成方面，LaVA 利用 GPT-4 创建了多种指令微调数据，包括多轮问答、图像描述和复杂推理任务，以确保模型能够处理各种查询。由于 GPT-4 的当前接口仅接受文本输入，因此图像信息需要转换为文本格式。本研究中，使用 COCO 数据集中每个图像提供的五张图像以及边界框坐标作为输入到 GPT-4 的文本描述。

关于训练策略，LaVA 采用两阶段方法。

模型使用从 cc3m 数据集中根据特定规则筛选出的 60 万图像文本对进行微调。微调过程冻结视觉和语言模型，只专注于线性层的微调。
使用上述数据生成策略，生成了 160,000 个指令微调数据样本。然后使用语言模型损失进一步微调模型。在此阶段，视觉模型被冻结，而线性层和语言模型都进行了微调。

PICa 是第一个尝试使用语言模型解决 VQA 任务的方法。其目标是使语言模型能够理解和处理图像信息。为了实现这一目标，以前的研究采用描述模型将图像转换为相应的文本描述。描述（caption）与问题（question）一起输入到 GPT-3 中，形成三元组（问题、描述、答案），并利用上下文学习来训练 GPT-3 回答新问题。在少样本上下文学习场景中，PICa 比 Frozen 表现更好，但仍不及 Flamingo。这一现象可以归因于将图像转换为描述时视觉信息的丢失。视觉信息在回答问题时起着关键作用，将图像转换为文本不可避免地会导致视觉细节和语义损失，从而限制了模型的性能。

PNP-VQA 利用描述模型和预训练语言模型（PLM）来解决 VQA 任务。然而，它在选择 PLM 方面与 PICa 不同，因为它采用了一个问题回答模型 UnifiedQAv2。PNP-VQA 专注于实现零样本 VQA 能力。

为了解决描述中丢失图像信息的问题，PNP-VQA 在生成描述之前引入了一个图像问题匹配模块。这个模块识别出与给定问题最相关的图像块。然后针对这些选择的块生成特定的描述。这些描述-块对，以及原始问题，被用作上下文并输入到 UnifiedQAv2 模型中。这种方法通过将相关的图像块作为上下文以确保生成的描述与问题密切相关。

通过将图像-问题匹配模块和利用 UnifiedQAv2 作为 PLM，PNP-VQA 旨在提高生成的描述对 VQA 的相关性和准确性。这种策略使模型能够有效地利用图像和问题信息生成更相关的答案。

Img2LLM 旨在解决使用 LLM 进行 VQA 任务时面临的主要挑战。

模态分离问题，即 LLM 无法有效地处理视觉信息。
任务分离问题，即通过文本生成的 LLM 在没有微调的情况下，难以利用描述为 VQA 任务提供帮助。

为克服这些挑战，作者提出通过（问题，答案）对齐来传递视觉信息。具体来说，该方法涉及使用描述模型或类似于 PNP-VQA 的方法为图像生成描述。从这些描述中，提取出可能作为某些问题答案的有用词汇，如名词和形容词。然后，使用问题生成模型生成相应的问题，从而创建（问题，答案）对。这些对作为上下文学习中的示例，帮助 LLM 针对给出的图像回答问题。

通过通过（问题，答案）对传输视觉信息，Img2LLM 解决了模态分离和任务分离问题，使得 LLM 能够更好地利用视觉信息进行 VQA 任务。

V Practical Guide for Various Tasks

图像描述生成。图像描述生成是指为给定的图像生成短文本描述。它是一种多模态任务，涉及处理包含图像和短文本描述的多模态数据集。多模态翻译任务是开放式的和主观的，因此生成的内容并不唯一。图像描述生成的目标是将视觉表示转换为文本表示以解决翻译挑战。需要捕获图像的语义信息，并检测出物体的关键对象、动作和特征。

此外，图像描述生成模型需要推断图像中的对象之间的关系。图像描述生成可以用于为图像提供文本描述，这对盲人或视力障碍的用户特别有用。通过生成简短的文本描述，这些用户可以更好地理解和感知图像的内容。它为他们提供了与视觉世界互动的机会，提高了他们的体验和参与度。

文本到图像生成。文本到图像生成确实是多模态学习中最受欢迎的应用之一。它解决了将文本转换为图像的挑战。例如，OpenAI 的 DALL-E 2 和 Google 的 Imagen 在这个领域取得了显著的突破，引起了广泛的关注。这些模型的作品可以被视为图像描述生成的逆过程。通过提供简短的文本描述作为提示，文本到图像模型可以生成准确反映文本语义的新图像。

最近，文本到视频模型也出现了。这些模型具有广泛的应用。它们可以协助进行照片编辑和图形设计，同时也为数字艺术提供灵感。这些模型为用户提供了一种直接将文本转换为视觉内容的工具，推动了创意产业的发展和创新。这些技术的进步为图像的创建和理解提供了新的可能性。

手语识别。该任务的目标是识别手语动作并将其转换为文本。动作通过摄像头捕捉。为了准确识别动作，相应的音频和两种模态必须对齐。手语识别是一项基于对齐方法的任務，因为它需要模型将视觉模态（如视频帧）的时间信息与音频模态（如音频波形）的时间信息进行对齐。这涉及将视频帧与音频波形的时间之间的对齐，以识别手势及其相应的口语语言。

一个常用的开源手语识别数据集是 RWTH 菲尼克斯天气 2014T 数据集，它包含了来自不同手语使用者的德国手语视频记录。该数据集提供了视觉和音频模态，非常适合依赖对齐方法的多元模态学习任务。通过将视频和音频的时间信息对齐，模型可以利用视觉和音频特征进行手语识别，从而提高识别的准确性和有效性。

情感识别。虽然可以使用单一模态数据集进行情感识别，但使用多模态数据集作为输入可以提高性能。多模态输入可以以视频、文本和音频的形式出现，也可以包括传感器数据，如脑电波数据。一个实际例子是音乐中的情感识别。在这种任务中，模型需要使用音频特征和歌词来识别音乐的情感内容。在这种情况下，使用晚期融合方法是合适的，因为它结合了训练在单个模态（如音频特征和歌词）上的模型的预测来生成最终预测。

DEAM 数据集专门设计用于支持音乐情感识别和分析的研究。它包含了 2,000 首歌曲的音频特征和歌词。音频特征包括 MFCC、频谱对比和节奏特征等描述子，而歌词则使用如词袋模型和词向量等技术表示。

视频处理。在视频和音频领域，多模态融合也是一个日益发展的趋势。随着图像-文本多模态模型的迁移到视频-文本和音频-文本多模态领域，出现了一系列代表性的模型。例如，VideoCoCa 模型是针对图像-文本领域的代表性模型。

CLIP 模型催生了 VideoCLIP 模型的出现。统一的多模态大型模型的发展也推动了视频处理领域的前进。阿里巴巴的 mPLUG-2 在视频相关任务上表现出色，例如视频问答和视频描述生成。

此外，Google 的 MusicIM 在音频多模态领域也获得了认可，因为它可以根据文本输入生成音乐。此外，视频和音频领域涉及许多其他多模态任务。音频视觉语音识别是针对个人给出的视频和音频进行语音识别的任务。

视频声音源分离涉及在给定的视频和音频信号中定位和分离多个声音源。基于音频的图像生成是指根据给定的声音生成相关的图像。条件语音生成涉及根据给定的语音语句生成说话人的视频。有一些任务，如基于语音的 3D 面部动画，可以根据给出的语音生成说话人的 3D 面部动画和相应的 3D 面部模板。

AIGC 技术在数字人发展过程中发挥了重要作用，简化了过程并提高了开发效率。像 Meta 和 NVIDIA 这样的公司已经推出了产品来帮助用户创建 3D 数字人，NVIDIA 的 Omniverse Avatar 就是其中的一个例子。用户可以通过上传照片、视频或音频来创建数字人，这提供了高效和成本效益的优势。

具体来说，自然语言生成技术影响了人与计算机互动的内容质量，而计算机视觉技术影响了数字人的面部表情和身体动作，如唇同步。AIGC 技术的不断进步使得人与计算机的互动更加高质量。AIGC 使得由 AI 驱动的数字人具有智能发展能力，在多模态交互过程中提供识别、感知、分析和决策能力。

数据指南。多模态数据集在推进视觉和语言任务的研究中起着关键作用。这些数据集将不同的模态（如图像、文本、视频和音频）结合在一起，为各种应用提供了丰富和多样化的信息来源。作者将多模态数据集分为不同的类别，并针对每个类别呈现一个代表性的数据集选择，如表 II 所示。对于未来的研究，作者可以使用这些数据集来对模型的有效性进行实验测试。

VI Challenges

为了进一步提高多模态应用的性能，一些基本问题仍然需要更多的关注，包括但不限于：

模态扩展。传感器和数据源是多样的，因此它们可以获取丰富的信息，以实现更全面和准确的分析与识别。

例如，在情感计算领域，模态扩展涉及使用多种模态，如音频、面部表情、心电图（ECG）和脑电图（EEG），以获得对人们情感状态的更全面理解和识别。

音频模态可以捕捉说话人的语调和说话速度的变化；视觉模态可以分析面部表情和身体语言；心电图（ECG）和脑电图（EEG）可以提供与情绪变化相关的生理信号。此外，医学影像领域涉及多种模态，如 CT 扫描、MRI 和 PET 等。例如，CT 扫描可以提供有关组织结构和病变的详细信息；MRI 可以观察组织的解剖结构和功能；PET 可以用作检测代谢和生物标志物的分布。

通过结合图像数据的多种模态，医生和研究人员可以获得更全面和准确的患者医疗信息，以支持精确的诊断和治疗决策。

耗时问题。为了优化训练架构并提高训练时间，大型模型对 AI 系统有很大影响。首先，由于模型的巨大规模，计算可能需要跨集群进行分布。其次，多用户和多任务场景很常见，需要支持多租户。此外，高可靠性至关重要，要求模型具有动态容错能力。需要将多个骨干模型相结合。虽然多模态语言模型在各个领域都取得了巨大的成功，但它们的计算需求对模型训练构成了巨大的挑战。如何加速模型训练？

作者可以将多个具有不同架构的模型动态分配到两个高速互联的数据中心。在训练和推理过程中，通过 gang 调度，动态地调度模型通过路径，实现共享计算、共享权重和动态路由等能力。

终身/持续学习。当前的经典方法是将 AI 算法应用于给定的数据集，构建模型，然后将此模型应用于实际任务。这被称为隔离学习，并导致算法的记忆能力不足。因此，模型或算法不会保留学习的知识，然后持续应用于未来的学习。对于实际应用，但不仅仅是隔离任务，多模态大型模型需要具有终身学习或持续学习的能力[73]或[74]。

作者应该构建一个具有持续学习能力的语言模型，它可以根据自己的经验对世界进行复杂的理解，从而使用更复杂的知识进行自主和渐进的训练和改善。在迈向人工通用智能（AGI）的道路上，作者仍然面临许多机会和挑战。

例如，灾难性遗忘问题指的是神经网络及其相关的权重，最初用于语言任务，后来被用于其他任务，导致网络忘记了其初始训练目标。在这些情况下，大型模型可能会失去其原始的语言能力，导致下降。例如，在语言能力转移到基于机器人的应用时。

最近的研究，如 BLIP-2，KOSMOS-1，BEiT-3 和 PaLI ，已经提出了两种解决这个问题的可行方法：

通过使用较小的网络并从头开始用新数据进行再训练来避免灾难性遗忘；
通过使用更大的语言网络作为骨干来规避灾难性遗忘。

请注意，在追求 AGI 方面，仍然存在其他挑战，包括多模态融合、多模态对齐、协同学习以及模型即服务（MaaS）。

VII Conclusion

多元模态模型的进步为 AI 开辟了新的道路，使得二进制机器能够理解和处理各种数据类型。多元模态模型将在不久的将来导致更全面和智能的系统。作者已经对多元模态模型的发展进行了全面的探索。

作者首先介绍了多元模态的概念，然后对多元模态算法的演变历史进行了排序。之后，作者讨论了各大技术公司开发多元模态产品所做的努力，并提供了对多元模态模型技术方面的洞察。

作者还提供了一份常用的数据集汇编，可以提供有价值的实验和评估资源。最后，作者突出了与多元模态模型开发相关的挑战，并进行了讨论，以供进一步研究。

通过解决这些问题，本文旨在提供对多模态模型及其在各个领域潜力更深入的理解。

参考

[1]. Multimodal Large Language Models: A Survey.

作者：小书童
文章来源：集智书童

推荐阅读

更多嵌入式AI干货请关注嵌入式AI专栏。欢迎添加极术小姐姐微信（id:aijishu20)加入技术交流群，请备注研究方向。

一文综述，未来已来 | 视觉和大语言模型的未来是什么？必然结连理实现多模态大模型