LVS2023 | 从 AIGC 到多模态媒体大模型 - 极术社区

编者按：AIGC大模型的发展正逐渐为音视频、游戏等产业赋能，而多模态大模型作为它的下一个重要发展方向，正被业界高度关注。LiveVideoStackCon 2023 上海站邀请了来自上海交通大学的宋利教授，为大家从多模态媒体生成、多模态媒体编码和多模态媒体交互三个方面展望新一代多模态媒体的特点以及未来基于大模型的智能跨模态编码的新趋势。

文/宋利

整理/LiveVideoStack

多模态媒体大模型

媒体行业增速放缓，而 AIGC 技术的商业落地备受瞩目，文本到图像的模态生生成技术有望改变我们的内容生产和消费方式，带给行业新的想象空间。同时，学术界和行业界正在积极研究多模态大模型，实现多种模态的对齐和生成。我们判断，多模态媒体大模型将是行业的重要技术基础设施，给内容的生成、编码、交互带来全新的变革。

根据目前的研究态势，我们给出如下的多模态媒体大模型体系框架，实现文本、图像、视频、音频、3D、传感器、驱动器等模态的输入、推理和生成。框架将语言大模型作为逻辑推理的中心，将不同模态的数据变为一个整体的张量作为输入，经过大模型推理后，输出的张量再还原到目标模态，从而使大模型成为一个具有推理和思考能力的高级操作系统。

这其中有一些要点：

表示（Representation）：多模态媒体大模型需要能够有效地表示和处理不同模态的媒体数据，例如文本、图像、视频、音频、3D 等。对于每种模态，需要选择适当的表示方法，以便在模型中进行进一步的处理和分析。例如，对于图像，可以使用卷积神经网络（CNN）提取特征，对于文本，可以使用词嵌入或者序列模型来表示。
对齐（Alignment）：在多模态数据中，模态之间可能存在相关性和对应关系。对齐是指将不同模态的数据进行匹配和关联，以便模型可以理解它们之间的关系。例如，可以使用注意力机制（Attention）来对齐文本和图像之间的语义对应关系。
推理（Inference）：多模态媒体大模型需要具备推理能力，即能够分析和理解输入数据，并从中提取有用的信息。推理可以利用语言逻辑，具备一定的泛化能力。通过将不同模态的数据结合起来进行推理，模型可以获得更全面和丰富的理解。目前通用的方式是利用预训练语言大模型进行推理任务。
生成（Generation）：多模态媒体大模型也可以用于生成新的多模态数据。例如，可以通过给定一段文本描述来生成对应的图像或视频，或者通过给定一段音频生成对应的文本。我们可以对推理输出的中间表示进行解码，输出需要的模态。
评价（Evaluation）：对于多模态媒体大模型，评价是一个重要的环节，用于度量模型输出的质量和性能。评价可以包括主观评估和客观评估。主观评估可以通过人工评价来衡量生成结果的质量，客观评估可以使用各种指标和度量来评估模型的性能，例如生成的多样性，音视频的质量等。
编码（Encoding）：不同于数据表示中的嵌入概念，这里特指数据的压缩编码。在多模态媒体大模型中，数据的编码是指对于任何模态的信息或者中间嵌入转换为空间紧凑的数据流。对于文本、音视频等传统模态，已有成熟的编码标准，对于 3D 模态，各种技术路径还未收敛。同时，业界也在积极探索跨模态编码、嵌入信息编码和神经网络编码。
交互（Interaction）：多模态媒体大模型可以支持人与模型的交互、模型与模型的交互，甚至人与人之间的交互由模型的交互来代理，这将形成一个模型的生态圈。这包括接收用户输入的多模态数据，并根据用户的需求进行推理和生成。交互也可以涉及模型与其他系统的协作，例如与传感器和驱动器交互，甚至实现广义人工智能 AGI。

接下来，我们将从其中的生成、编码、交互三个维度来展开介绍。

-01-

多模态媒体生成

图3 元宇宙与大模型

对于内容生成的讨论上，去年元宇宙的话题备受关注，今年则是大模型抢了风头。但实际上，AIGC 将大模型与元宇宙之间建立了一个很好的桥梁。当我们强调元宇宙时，更注重的是用户体验和带入人类的因素。而大模型则更注重于工具和赋能。这两个方面应该是相互补充的，形成一个整体，既包括生产力也包括用户体验。

AIGC基础模型和应用发展预测

红杉资本的这张图展示了 AIGC 基础模型的发展态势，目前普遍认为我们处于发展的中间阶段，后面的预期都打着问号，表示未来的发展路径可能存在不确定性，时间上可能会更快或更慢。有些事情可能比我们想象的简单，有些则可能更复杂。然而，我个人认为，各大头部公司和创业企业已经涌入这个领域，投入了大量的智力和资源，这将加速发展进程。

AIGC大模型一览，单模态&多模态

从 AIGC 和模态的角度来看，我们可以观察到模型的发展呈现出三个阶段。最初阶段是单模态模型，像 GPT 这样的模型在这个阶段起到了代表性的作用。

随后，在 2021 年和 2022 年，双模态模型开始大量涌现。其中一个代表性的应用是文生图、文生视频，它结合了文本和视频等多种模态。这里面有一个关键的部分，就是对齐（alignment），也就是将不同模态的数据以最自然的语言表达进行对齐。这种对齐是基于语言的，也是维特根斯坦所说的语言是思维的边界。因此，从文本到其他模态的转换都是非常自然的。

在去年年底到今年初，我们已经看到多模态模型开始爆发。在这个阶段，有两个主要趋势，一个是自然扩展，另一个是深度扩展。目前，我们已经看到模型中有六种模态，甚至有一些模型拥有十二种模态。然而，核心仍然是以文本为基础的，从文本转换到各种模态，再进行对齐。我们可以预期未来的发展将更加多样化，并且更多地涉及多模态的应用。

多模态AIGC大模型的必然性

目前，双模态应用的落地较多，而多模态应用仍处于早期阶段。为什么多模态会是一种必然呢？

首先，多模态提供了对维度的自然扩展，使得模型可以更全面地理解和处理不同模态的数据。

其次，我们注意到数据收集的跨模态特性。在构建大型模型时，高质量的数据是一个重要的瓶颈。多模态数据在跨模态的收集方面已经取得了一些进展。尽管在几年前这样的数据集非常有限，只有少数几家公司在进行相关工作，而且最自然的跨模态数据集是文本和图像之间的转换。例如，声音和 3D 或传感器数据之间的转换，这些数据量非常有限，缺乏相应的数据集。然而，现在我们已经开始构建这样的数据集，包括一些大公司也在进行相关研究，它们也在开始进行模态融合。

最后，从研究和学术角度来看。人类认知本身就是天然的多模态过程。如果我们人工智能的大模型要去逼近人类智能的话，尤其是从感知到认知的角度，走向多模态是符合自然规律的。代表性的例子之一是 Meta 的 "image-bind"，它融合了六种模态，并且是开源的，取得了一定的效果。虽然跳出给定的数据集进行评估时可能并不理想，但至少他们为这个领域开辟了一条道路。

多模态AIGC大模型的关键要素

那么如何实现多模态 AIGC 大模型？

首先，数据是最关键的因素。当前，所有大型模型之间的共识是，数据对于多模态模型的成功至关重要。最近的一次采访中，包括 OpenAI 的领导人和创始人在内，被问及中国是否能够超越其他国家的技术实力。他们的基本观点是，首先你需要拥有大规模且高质量的数据才有意义。仅仅拥有大规模的数据是不够的，数据质量同样至关重要。在多模态领域，这一点更加显著，因为如果维度增加，数据很容易变得非常稀疏。因此，对于拟合模型而言，这带来了更大的挑战。目前，有多种方法可以处理数据。例如，在无人驾驶领域，将仿真数据与真实数据结合使用可以在一定程度上弥补多模态数据的缺失问题。

其次，关于模型本身，人们普遍认为多模态模型的参数应该更多、规模更大。然而，目前的研究结果表明，视觉模型和其他模态模型，并没有像语言模型那样，在参数量上展示出更高的维度。这里面可能有一个语义对齐的问题，即语义空间和信号空间可能不同。多模态的数据在信号空间上可能具有更大的维度；然而在语义空间中，语言模态可能具有更高的有效维度或内在维度。因此，模型设计仍然是一个巨大的挑战。除了当前以语言为核心的大型模型，现在还有一些人在探索模拟人脑智能，当然都还处于初级阶段。

最后，关于功能方面，学术界和工业界开始提出一个新概念，即具身智能。这意味着模型需要与环境进行感知，并在决策和学习之间形成一个与环境和数据进行循环交互的大循环。因此，多模态的具身智能模型可能是一个有潜力的应用方向。

多模态生成之图像创作

目前在图像领域主要采用的是扩散（diffusion）技术，但实际上在扩散之前也有生成网络 GAN 等其他成功的技术。如果我们仔细观察，生成对抗网络（GAN）并没有消失，最近还出现了一个很有潜力的工具，叫做 DragGAN。实际上，GAN 在操控性方面至少在当前阶段比扩散方法更好。然而，GAN 的可控性仍有挑战，尤其是在生成高质量图像和语音时与 diffusion 有不少差距。所以大多数人都在扩散方法的赛道上，但仍有一部分人继续深入研究 GAN，包括在生成三维图像方面，GAN 仍然具有一定的优势。

自由式图像生成：文本+布局

图像生成方面有很多工作正在进行。这里简单介绍一下我们今年的一个工作，给定一个布局图，和一段 prompt 提示词来生成图像。可以更换其中的元素或词语，这样就可以实现一种可控性的表达方式。这种方法可以与直接生成图像相比，提供更多的控制。在控制方面也有多种方法，比如布局图，轮廓线或是参考图。对此感兴趣的同事可以参阅我们发表的论文。

多模态生成之视频创作

在视频创作方面，已经有 Runway 等几家公司在这个领域取得了突破，一些投资公司对这个领域比较看好，国内也可以有类似的公司出现。与文生图相比，文生视频仍然存在一些扩展性和通用性的差距，我认为这个差距至少还需要一到两年的时间来弥补。生成效果上，后者的水平大约相当于前者两年前的水平，这包括生成图像的质量和抖动性等方面。目前主要以生成短视频为主，生成长视频时，一般是通过合成短视频并添加滑动窗口等工程技术来实现。就原理性技术而言，并没有突破 "stable diffusion" 框架，即以 CLIP 和 transform 为基础加上扩散技术的框架。

多模态生成之3D创作

除了视频，人们也自然而然地关注到了三维图像生成。在某种程度上，文本到三维生成比文本到视频生成更成熟。当然，生成复杂的建筑模型（如天安门广场）比较困难，但是生成一只猫、一只狗等小物件的效果是可行的，至少可以帮助动画师快速创建初始模型，进一步的编辑也变得更加容易。因此，目前对于三维图像生成这个领域的关注度也相对较高。虽然今年的论文也有开始做 3D diffusion 的，但是现在可控性更强的还是以 GAN 为基础的生成技术。

数字人技术是元宇宙的重要技术

目前，数字人是最近最受关注和应用最广泛的领域之一。去年元宇宙的兴起使得数字人成为了热门话题，因为数字人被称为进入元宇宙的入口。因此，各个公司都高度关注数字人，市场上已经有数百家数字人公司或团队，学校也在进行相关研究。

数字人：语音驱动真实化身

我们早在一年前就开始研究数字人，并取得了一定的领先。其中嘴型对齐是一个最具挑战性的问题，今年大家基本上都解决了这个问题。所以说，领域的进展程度是可见的，只要你敢于展示你的成果，很快就会被接受和认可。我们的工作早期就已经在学术论坛上进行了讨论，所以引起了一些关注，包括一些创业公司联系我们，希望我们参加他们的创业赛道，这可能对其他人也有一些启发。

数字人：语音驱动虚拟化身

去年，参加世界人工智能大会的时候，有一个对嘴型的竞赛，重点是给定一个平均模型，大家使用各自的模型进行对齐。因此，一些项目更注重驱动模型而不是仿真人。我们去年也参加了这个竞赛，在这方面取得了一些进展。

2D数智人：全流程交互式问答助理

交互是最困难的部分。如 DEMO 所示，我们也初步尝试了与 GPT 模型的交互，不过这里的视频处理了一下延迟。实时交互的核心问题是延迟。从问题到 GPT 的回答之间会有接近两秒的延迟，然后 TTS 合成也需要大约一秒的延迟，再将文字转化为视频，一般会缓冲 30-50 个字，所以延迟也会有几秒钟。总体来说，现在的延迟已经接近六七秒了。我们预计通过工程的方法可以将延迟减少到 3 秒左右，但要进一步减少目前串行交互是不行的，我们还没有找到解决这个问题的方法。

直播的延迟可以消隐，但是实时交互则比较困难。我认为下一步或者近期的重点是将实时通信（RTC）与这个技术结合起来，即进行具有可见参与者的强交互对话，这是一个比较大的挑战。

多模态生成模型的思考

在这方面，我们有几个小的思考。

首先，关于多模态，目前我们主要以 GPT 为中心，但这是否是最佳方式？是否还有其他路径或方法？这个问题还没有清晰的答案。

其次，很多人在问，当GPT作家读完了所有的书该怎么办呢？意思是说模型是否已经达到了信息饱和的状态。对于多模态的大型模型，是否会出现卷到天花板的情况？它的增长速度会很快吗？大家都在探索这个问题。当然，我要提醒的是，我们这里默认的假设都是基于多模态，每个公司都有自己的多模态模型，或者是一个超大规模的多模态模型。如果将多模态模型视为人一样的话，个体的能力是有限的。而所有人的能力加起来可能不仅仅是模型本身的能力，还可能涉及到其他社会智能的涌现。这方面可能还比较早，所以从这个意义上来说，目前的智能还是以单个人为中心。当然，这个人学习了很多知识，但实际上还有很多其他智能，比如社交智能，在这种大型模型中还没有得到充分展现。

最后，目前初步看来说多模态的能力其实不如这个用单一模型在做，这个模型在做所有东西的对齐，这个路径其实也是值得探索的。

-02-

多模态媒体编码

沉浸式编码标准

从媒体表达形式的角度来看，过去几年主要关注的是从 360 度视频到点云，特别是在最近两年的元宇宙浪潮中，以视频为中心的体积视频成为了热门话题。

MPEG 在 2021 年底启动了 MIV（Moving Immersive Video）项目，并在去年底发布，主要关注的是对体积视频的编码。MPEG 下一步开始关注类似 AIGC 或NeRF（Neural Radiance Fields）这种神经表达技术，这个领域正处于一个新旧转换的时期。内容的未来发展将肯定是朝向真正的 3D 表达，而如何进行 3D 表达的压缩是一个重要的课题。

新趋势：基于隐式表达的沉浸式编码

隐式表达可以作为一种紧凑的多视图表达方式，它并不一定源自图形学，但它本身对于多视图具有紧凑的表示能力。自然地，这种表达方式也可以用于呈现和压缩。

我们的这篇工作中使用常规编码方法对主视角进行编码，而使用隐式表达方法对其他系数视角进行压缩。这种方法与使用神经网络进行图像压缩的本质相同，但我们在此过程中压缩的是坐标、坐标转换以及视角之间的预测，通过这种方式实现了模型参数之间的映射。通过将所有这些内容放入一个隐式表达函数中，我们可以在进行解压缩时重新投影出选定的连续视角。因此，在某种程度上，我们将稀疏的数据转化为连续函数，并在其上进行采样。

基于隐式表达的人脸编码

我们还探索了 3D 人脸编码，将其转化为隐式表达后，实现超低码率压缩。

试验结果表明，在码率接近时，NeRF 表达相比传统的 MIV 在质量上有明显的提升。MIV 项目中的编码器采用了 H.265 或 H.266 两种版本，当前工作比 H.265 表现更好，尚未超越 H.266。

基于隐式表达的编码效果

隐式表达还具有一个优点，就是生成的图像合成是自然的。与传统的贴图不同，隐式表达能够自带光照属性和视角变化，其渲染效果更加自然。从渲染的角度来看，NeRF方法比 MIV 的效果更好，甚至比 VVC 的效果更好一些。至于隐式表达在人脸合成上的应用，NeRF 也有更好的效果。

最近，MPEG 已经开展了一个工作组，专门探索使用 NeRF 进行 6 自由度压缩的方法及其可行性。这项工作可能需要大约一年的时间，如果证实这个方法具有潜力，将会启动新一代标准的制定过程。

新趋势：跨模态编码

此外，在跨编码和跨模态的应用方面，近年来已经有多种方法在进行研究，一个热门的研究课题是语义压缩，不过这里需要与无线通信领域的语义编码稍作区分。语义编码的工作大多使用神经网络来处理信源部分，而信道部分的处理相对较少。因为语义编码主要指的是信源，而信道并不涉及语义问题。

图上这个工作是由北大马思伟老师团队去年完成的。这项工作的主要目标是在对一幅图像进行压缩时，能够直接提取出其中的文字。当然，将描述传输过去并重新生成图像时，可能会有一些细节的损失，导致生成的图像与原图不完全一样。因此，为了保持图像的结构性，这项工作引入了 Sketch 和 Semantic map 的概念，用于引导图像的生成。此外，生成图像的能力本身也是一个重要的工程问题，因为在生成过程中需要尽可能地恢复原图的特征。从跨模态的角度来看，这个工作是有意义的。但是也许可以更直接一些，将这些信息从统一的大模型中提取出来，而不需要进行手工设计特征。

未来：基于大模型的智能跨模态编码？

我们有一个大胆的设想：未来的编码器可能只需要一个统一的编码器，不再需要单独的音频编码器和视频编码器。目前的多媒体处理流程通常是先处理音频，再处理视频，然后将它们合并到一个容器中，最后进行 MUX。对于跨模态的数据，它们本身具有天然的对齐性，因此不再需要额外的同步处理。这意味着我们可以构建一个统一的编码器。

这个编码器中的许多描述信息需要以描述符的形式进行编辑。这些描述信息可能包含人类可理解或不可理解的内容，但更像是元数据。在此基础上，大模型也可以是一个增强模型，可以进行预处理和后处理。统一编码器 Codec GPT，再加上 Diffusion 的后处理，可以作为一个完整的数据表示。

在解码时，只需要根据需求提取所需要的模态，不再需要每个模态单独的容器。如果只需要视频，那么可以仅提取视频部分，或者可以提取其投影版本。如果想看 3D 内容，那么可以提取 3D 投影。此外，结合之前提到的云边端结合，这种模型可以部署在边缘设备上，用户可以与之交互并获得所需内容。这有可能变成一种新的数据交互形态。

大模型下的码率和失真

从压缩的角度来看，大模型还需要研究失真率的问题。

关于图像描述的信息量，在大约 12 年前，李飞飞老师提到了一个有趣的例子。我们可以根据不同的确定性水平进行分类判断，做出一个永远不会出错的识别系统。系统可以将一只鸟的照片时，识别为“Bird”，或者在更高的确定性下识别为 "Small Bird"；但如果确定性较低，则可以将其归类为“Animal”。总之，我们可以完全用这种方式来描述大模型的工作原理。我们可以不断地进行追问，将其详细化，而现在的稳定扩散进化速度可能很快就能够实现准确的对应关系。因此，这仍然是一个值得思考的方向。

在压缩方面，我们不一定只限于视频，我们可以将大模型作为压缩对象。以前的 CNN 等模型可以通过减少参数量、量化和低秩分解等方法来进行轻量化部署。然而，压缩大模型也存在一个问题，就是模型的组件或者参数必须是固定的才能进行压缩。如果前面的组件仍在不断变化中，那么进行压缩可能会变得多余。因此，对于大模型的压缩，目前可能还存在观望的态度。但是，如果大模型相对稳定下来一段时间，那么肯定还会有进行大模型压缩的需求。关于大模型的压缩方式，是事后进行压缩，还是在设计大模型时就考虑压缩，我们可以观察到一些模型的体积已经大幅减小。例如，它们的尺寸可能减小了 1/10，甚至更多，而性能并不一定下降。这意味着原始模型中可能存在很多冗余。因此，大模型的失真实际上是指其中可能存在的冗余部分。

另一个关于大模型失真的问题是，模型参数量与表达能力和生成能力之间的权衡。一般参数越多，能力越强。在许多场景中只需要识别出简单的语义，而为了人类观看则希望达到更高的准确性。因此，在这里可以找到大模型、失真和码率之间的平衡点，这是一个非常值得从压缩的角度研究的课题。

大模型在编码中需要做什么？

有人认为大模型是对知识的粗略的有损压缩，类似于 JPEG；如果要追求精确性，则模型会非常庞大。确实，模型可以被看作是对世界的一种压缩表达，我们将全球的数据压缩到一个知识点上。其他的东西实际上都可以看作是这个知识点的泛化，或者说是这个知识点的一种简化投影，这才是事物的本质。数据经过训练，生成了模型，如果模型的吸收能力很强，那么模型就完全理解了数据，模型本身就是数据，就是知识。

从这个意义上来看，传统的编码方法压缩的是原始数据，但原始数据从何而来呢？原始数据来自于世界，然后我们又用模型对其进行了重构，发现重构后又得到了一个模型。因此，这可能是同一个过程。也就是说，传统压缩和大模型压缩可能是等效的，所以通过构建大模型，我们可能同时解决了压缩的问题。这是一个逻辑上的推测，不一定成立。

编码与生成

编码和生成可以被看作是大模型的 encode 和 decode 过程。也就是说解码过程可能对应推理，而编码则对应深度训练。它们有相似之处，也有不同之处。实际上，编码可以用来预测新的源分布，因此在进行编码时，本质上是在预测最大可能性的自然输出。在更高的视角，在高维空间中进行对齐时，数据的某个维度只是一种条件概率或者一个投影，这是一种降维。当然，编码模型对嵌入也存在一定的约束，这时也可以将嵌入视为类似于超参数，将其引入到 RD 中作为一种约束。

另一方面，如果编码模型向多模态发展，可能并非线性增长的问题，即在一定性能下不再提升。实际上，使用单模态可能已经达到了饱和点。因此，它会带来很多启发，也有许多问题需要回答。

-03-

模态媒体交互

Real-Time Communication

过去几年，特别是去年和前年，RTC（实时通信）是非常热门的技术。现在我们再回过头看看 RTC 和 AIGC 之间的关系，会有一些有趣的发现。

目前我们更多地关注的是所谓的“2.0”阶段。这意味着中间的交互变得比以前更强大，无论是语音游戏、直播、视频会议还是共同参与元宇宙。畅想一下，当 RTC 与 AIGC 结合起来，可能会涉及到人工智能的代理人出镜。在会议中、在购物领域，在数字人的展示中，我们可能不再是真人在观看，而是数字人在观看，让代理人参加会议。

这带来了一个巨大的变革，交互性将变得更强大，交互的频率和维度也会大大增加。以前的视频会议中，即使有几千人参与一个会话，大部分人都是听众，只有很少一部分人进行交互。但在与 AIGC 结合的情况下，如果所有交流都是与 AI 对象进行的，那么交互频率将是双向的，非常对等。

RTC-3.0-基于云端代理的多模态交互

在这种新形态下,传递信息的方式可能不再局限于音视频传输，而音视频传输可能不再是一个挑战。传递信息的都是代理人，是模型与模型在进行对话。在用户和代理人之间的对话中，代理人只需提供摘要，并不需要每秒 30 帧这样高的数据量。

RTC-3.0-基于云端代理的多模态交互

如果将所有的交互变成代理之间的交互，这就给业务场景带来颠覆，RTC 技术体系中也会有较大的变化。例如，控制信息会更多，可能只控制参数，而不是数据的传输。我们现在使用的内容中可能已经有了很多前向纠错编码（FEC）的同步逻辑，但是算法会有大的变化。用户需要与数字实体、数字人的代理进行绑定，而不是仅仅与音视频传输的画质和音质变化相绑定。因此，这里将涉及许多值得探讨的新课题。

RTC-3.0 - RTC架构：AICU

我们可以将 RTC 和 AI 结合起来，成为 RTC3.0，以新的“AICU”架构代替 RTC 原有的 MCU 和 SF 模式。在 AIGC 时代，当 Agent 之间进行会议时，它们之间的传输机制，无论是 P2P、CDN 还是现在的 RTN，都可以有新的发展，焕发新的生机。

新一代多模态媒体容器

此外，容器也会有重大变化，多媒体数据的标识解析将起到更大的作用。我们现在使用的诸如 HLS 等技术，不同模态在不同的通道保存。在未来，容器中的数据可能只是一些源数据、控制指令和脚本。这种新的视频内容会与游戏领域的一些技术相结合，如果大家关注游戏的话，肯定知道 Meta 正在推动的开放 USD 格式。这个文件很可能为我们提供一个机会，将这种新型视频内容与文件容器进行融合。容器中可以包含脚本，这些脚本可以驱动、运行，也可以通过 prompt 生成或替换。这才能真正实现交互时代的内容。以前这些东西都是流媒体思维的产物，流媒体的思路并没有改变过。但如果要变成交互类型的内容，所有这些东西都需要重构。

LVS2023 | 从 AIGC 到多模态媒体大模型