刷屏朋友圈的QQ小世界二次元生成器原理解密

作者：yichaozhou，腾讯 PCG 应用研究员

只需要上传一张照片，一键即可穿越二次元。火遍国内外的 QQ 小世界二次元生成器——“异次元的我“背后原理解密。

1 项目介绍

今年是人工智能领域成果井喷的一年，前有 AI 画画后有 chatGPT，纷纷迅速走红网络。早在今年五月，QQ 影像中心推出的国内第一款基于 AI 画画技术的”AI 恋爱专属画”520 活动就在小世界走红，最近新推出的“异次元的我”二次元形象生成器更是火遍国内外。

你可以看到罗翔老师一键变身霸道总裁：

甚至能看到 KFC 官推亲自打破次元壁：

各类梗图更是层出不穷：

在二次元滤镜下，就连这张经典的“女人吼猫”都透露出一丝温馨，“竟然都有点可爱了呢”。

这一切都是怎么做到的呢，本文带你揭秘“异次元的我”背后的原理和技术细节。

2 原理简介

2.1. 图像生成模型

近年来，扩散模型（Diffusion Model）在图像生成领域中蓬勃发展，例如 OpenAI 的 GLIDE 和 Google 的 Imgen，都采用了基于扩散模型的 pipeline 来获得高质量的图像生成结果。

扩散模型分为两个过程。如下图所示，右边是一张正常的图片。从右到左的 Forward Diffusion 是一个逐步地将正态分布的噪声叠加到图片上的过程，最终得到一张看起来完全是噪声的图片。可以不严谨地想象成往一块牛排上不断撒椒盐，直到它看起来完全被椒盐覆盖，看不清原来的纹路。

而从左到右的 Reverse Diffusion 则是一步步去除噪声，试图还原图片，这就是扩散的生成数据过程。而扩散模型的训练就是在学习预测叠加在 xt 上的噪声，从而得到去噪后 xt-1 的图片，经过一轮又一轮的去噪，得到最终无噪声的输出图 X0。

而最新的 Stable Diffusion 模型，则是在此基础上结合了一个训练好的 VAE 模型。VAE 模型可以对任意图片进行压缩再解压，将图片使用 VAE 的编码器压缩后能得到比原图小很多的特征编码，再基于特征编码训练扩散模型，最终生成的特征编码再使用 VAE 的解码器还原回原始尺寸的大图，这就是 Stable Diffision 的做法。这一改进大大减少了图像生成的时长和占用的 GPU 资源，使得落地成为可能。

2.2. 生成结果控制

为了能够使用文字控制模型生成的内容，Stable Diffusion 模型使用了预训练的 CLIP 模型来引导生成结果。CLIP 模型使用了大量的文字和图片对训练，能够衡量任意图片和文本之间的相关性，即 CLIP-score。在前向生成图片的过程中，模型除了要去噪以外，还需要让去噪后的图片和引导词的 CLIP-score 尽量大。这样在不断生成过程中，输出结果就会越来越接近我们给定的文字描述。

在上图中，左下角的小朋友的脸先被叠加了一定程度的噪声。之后在去噪过程中，会不断拉近生成结果图和“a woman wearing glasses”的距离，从而使得生成结果逐渐变成了戴眼镜的成年女性。生成图片依然能够保留原始图片的大致结构，但是细节却在文字的引导下发生了变化。

3 我们的技术方案

Stable Diffusion 技术在 AI 画画尤其是二次元领域中展现出非常高的观赏性和娱乐性，各家纷纷推出基于 Stable Diffusion 的 AI 画画平台，如 draft.art、意间 AI 等。但当时现有的平台在使用上非常不便捷，如果直接生成，大概率生成的质量不会很高，还容易遇到翻车现场：

如果用户想要生成比较好的结果，需要对图片内容进行详尽的描述，并增加很多提升效果和强化风格的词，才能得到一个比较理想的效果。而且界面可调的参数非常多，用户使用门槛很高。另一方面，对于资源的消耗导致这些平台通常需要排队非常久才能拿到一张结果。

我们针对这些痛点进行了优化改造，用户只需要上传一张图片，即可得到好看稳定的生成效果，降低了使用门槛的同时也保证了生成质量。

在技术上，我们主要进行了以下几点优化：

准确的内容生成：通过自研 diffusion 模型对生成语义进行强化，并辅助图片内容分析提升生成内容对应性；
更快的生成速度：利用超分模型减少 difussion 模型的生成分辨率，并针对图像 inference 过程进行加速，提升生成速度，节约 GPU 资源；
多样的风格选择：针对不同的场景设计了丰富且美观的风格化效果。

另外我们在设计玩法时简化了用户的使用流程，让用户使用门槛更低，体验更好，通过口碑积累达到了峰值 1000%的二次传播率。

3.1. 准确的内容生成

之前的一些 AI 画画平台，如意间 AI，draft art 等，除了上传图片，还需要使用一系列的描述主体和风格的引导词（prompt），有时候还需要调整不同参数，来得到一个理想的结果。

为了降低用户的使用门槛，我们对 pipeline 进行了改进：

我们将输入模型的提示词分为两个部分——图片主体内容描述和风格描述。

内容描述：为了得到图片的内容描述，我们对输入图中的信息进行人物性别、年龄、姿势等属性的检测，得到最终尽可能准确详尽的内容描述词。

风格描述：为了让结果更接近二次元，我们为各种不同场景设计了非常鲜明的二次元风格。根据第一步对图片内容进行分析后，进一步细分为单人男性、单人女性、多人等不同场景。

结合内容描述和风格描述，我们通过对原图的分析得到最终完整的提示词输入网络，从而能够稳定生成画面精致、风格突出的结果。既保证了生成内容和原图的对应性，又增添了很多“异次元”要素，让用户更有穿越到二次元的感觉，同时也保证了较高的生成质量。

另一方面，我们的自研 diffusion 模型针对语义理解进行了强化，能够更准确理解和生成图片的主体内容，在语义信息理解和图像生成质量上均有明显提升。

和近期推出相似玩法的竞品对比，我们在内容准确度上会更好，风格也更加二次元化，更美观：

3.2. 更快的生成速度

原始的 Stable Diffusion 由于需要通过多次迭代生成图片，在默认配置 A100 机器上生成一张 720p 的图像耗时约 12s。如果需要通过提升分辨率和增大迭代步数来提升效果，耗时更是需要多达一分钟。我们针对自研模型采取了一系列的模型压缩和工程加速的方案，最终一张图片的生成速度是 1.6s，提升了 7 倍。