FoundIR: 释放百万规模高质量训练数据，助推图像复原基础模型

文章地址：https://arxiv.org/abs/2412.01427
项目地址：https://www.foundir.net/

简介

尽管 all-in-one 模型在通用图像复原方面取得了重大进展，但现有方法在现实场景中存在泛化瓶颈，因为它们大多是在退化有限的小规模合成数据集上训练的。因此，迫切需要大规模的高质量真实世界训练数据，以促进图像复原基础模型的出现。为了推进这一领域，作者团队不遗余力地贡献了一个百万规模的数据集，它比现有的训练数据有两个显著的优势：具有更大规模的真实世界样本，以及具有更高多样性的退化类型。通过调整内部相机设置和外部成像条件，作者精心设计数据采集系统和数据对齐标准来捕获对齐的图像对。

此外，作者团队提出了 FoundIR 模型，以更好地解决真实场景中更广泛的复原任务，向图像复原基础模型的出现迈进一步。具体来说，首先利用基于扩散的通才模型，通过从不同输入中学习与退化无关的公共表征空间来去除不同退化，其中采用增量学习策略来更好地指导模型训练。为了改进模型在复杂场景下的恢复能力，还引入了退化感知的专才模型，以获得最终的高质量输出。大量实验表明了所提出训练数据的价值和方法的有效性。

介绍

基础模型是一种新兴的范式，它表示在广泛数据上训练的模型，能够适应广泛的任务。近年来，NLP 和高级 CV 基础模型，如 GPT-4、CLIP、SAM，已经在更广泛的场景范围内取得了显著的泛化能力。然而，与这些领域的进步相比，图像复原基础模型的进步并不显著。

为了助推这一领域，一些多任务图像复原方法尝试设计一个基本框架来处理多个子任务。尽管与特定任务的图像复原方法相比，这些方法可以提供更好的通用性，但它们需要针对不同的复原任务进行单独的训练，这是资源密集的。

最近，已经提出了许多通用（也称为 all-in-one）图像复原框架，这些框架被视为成为基础模型的潜在解决方案，其目的是在单个模型上同时处理多个恢复任务。然而，这些方法只是简单地将几个公开的合成数据集作为它们对应的一体化训练集。本文注意到，随着合成数据规模的增加，这些方法在现实场景中表现出明显的性能瓶颈，这是由于合成数据和实际退化之间存在巨大的领域鸿沟。通过不断地将已有的真实世界数据集添加到模型训练中，可以显著提高真实世界场景下的恢复性能。不幸的是，现有的真实数据集数量有限，再次限制了性能的上限，成为开发健壮的图像复原基础模型的绊脚石。因此，迫切需要建立一个大规模、高质量的数据集，以促进真实场景下通用图像复原的推进。

为此，本文付出了巨大的努力，为图像复原基础模型提供了一个百万规模的高质量数据集，该数据集由 100 多万对高分辨率 LQ 和 HQ 图像组成。为了方便成对数据采集，本文搭建了一个机电一体化拍摄系统。通过多轮运行该系统，通过调整了内部相机设置和外部成像条件来捕捉各种退化，并进一步提出了避免机械误差的数据对齐策略。与现有的训练数据相比，所提出的数据集具有更大规模的真实场景具有更高多样性的退化类型。

基于所提出的大规模数据集，探索图像复原基础模型的可行解决方案也是必要。这带来了两个关键问题：（1）如何制定一个强大的模型来处理更多现实世界的退化类型，并在此基础上，（2）当面对百万规模的数据时，如何更好地训练这个模型？对于第一个问题，现有的方法通常会引入各种先验或提示来指导模型学习不同的退化类型。不幸的是，这些方法给模型带来了过多的学习复杂退化信息的负担，导致学习负担增加，不同任务之间的竞争加剧。对于第二个问题，现有的方法通常是将训练数据分成多个子集，并从这些子集中构建训练批次进行模型训练。然而，随着来自不同分布的训练数据规模的增加，这些方法容易出现机器学习中常见的灾难性遗忘问题，可能会削弱模型的性能。

为了解决上述问题，本文还提出了一个鲁棒模型 FoundIR，旨在为图像复原基础模型的出现迈出坚实的一步。具体来说，首先制定了一个基于扩散的通才模型来学习与退化无关的特征，以便学习到的特征对复杂的现实世界场景具有鲁棒性。注意，在大规模数据训练中引入了增量学习策略来克服潜在的灾难性遗忘问题。考虑到现实场景中不同退化的特征，本文进一步结合退化感知专才模型来改进模型的恢复能力，以获得高质量的输出。实验结果表明，我们的研究打开了图像复原的天花板。

数据集

为了收集大规模的真实世界配对数据，本文精心设计了机电一体化拍摄系统，由相机、电动滑轨（GVM Slider 120）和两个相同的三脚架组成。在整个拍摄过程中，使用两个远程应用程序（GVM Slider 和 Imaging Edge Mobile）分别控制电动滑轨和相机快门。数据收集管道分为三个步骤：捕获 GT 数据；利用相机内部设置获取 LQ 数据；利用外部成像条件获取 LQ 数据。

捕获 GT：为了从更多样化的场景中捕获 GT 数据，我们使用 120° 广角拍摄模式将电动滑轨上的相机从起点 X 移动到终点 Y。摄像机的物理运动轨迹包括静止阶段、加速阶段、匀速运动阶段和减速阶段。由于相机在加速和减速阶段是不稳定的，所以只选择静止和匀速运动阶段的帧作为 GT 图像。在静态阶段，为了获得无噪点的 GT 图像，根据环境照度调整快门速度，直接以较低的 ISO 值（ISO≤300）捕获 GT 图像。在均匀移动阶段，使用预设的快门速度捕获 GT 序列，并在数据的后处理中仔细选择 GT 帧。
捕获不同相机内部设置的 LQ：在现实场景中，各种退化（噪声，模糊和低光）对相机设置（ISO 值和快门速度 ST）高度敏感。为了在第二轮中全面捕捉这些 LQ 图像，本文设计了一系列拍摄方案。对于噪声图像，为每个场景调整 30 个不同的相机参数。以确保同一场景照度相近的不同噪点图像，对 ISO 值与快门速度的乘积预设一个固定值，所有相机设置都必须严格遵守这个预设值。对于散焦造成的模糊图像，通过调整不同的对焦模式（AF-S， AF-A， AF-C 和 MF）来多次捕捉相同的场景。对于由相机和物体运动引起的模糊图像，使用高帧率（240 fps）相机捕获数据进行拍摄。之后，对捕获的视频应用帧插值，并通过在时间窗口上平均连续帧来生成模糊图像。对于低光图像，使用最低 ISO 值并设置不同的 ST 来捕获不同光照的图像。
捕获不同外部成像条件的 LQ：为了覆盖更广泛的真实退化数据，通过改变外部成像环境在第三轮中捕获 LQ 数据。事实上，由外部因素（如光照和天气）的变化引起的图像退化更具有挑战性。对于环境照明，通过一系列阻挡光源的活动，如关灯和拉窗帘，来捕捉室内场景中的低光图像。此外，考虑到现实世界低光条件下的图像退化具有多样性和耦合性，同时增加了第二轮的设置，以捕获更复杂的多种退化因素共存的情况，如低光+噪声、低光+模糊、低光+模糊+噪声。除了光照条件外，还引入了外部干扰物来模拟恶劣天气条件的影响。在现实场景中，雨水造成的退化通常包括空气中的雨痕和附着在相机镜头或挡风玻璃上的雨滴。为了实现这一目标，使用电动洒水装置来产生雨条，这是好莱坞电影工业中广泛使用的模拟降雨场景的技术。为了生成雨滴图像，在相机前放置了一块有水滴的玻璃板。通过停止喷水并移除有雨滴的玻璃，捕捉到相应的无雨背景。为了保证数据的多样性，低光+雨的采集也同时考虑了光照和天气条件。
数据对齐：由于需要运行系统多轮来收集大规模配对数据，因此确保图像序列的严格空间对齐至关重要。静态阶段的数据可以自然地用作对齐图像。然而，均匀运动阶段需要手动选择每个序列的初始帧和最终帧，这很容易导致不可避免的偏差。这种偏差会导致每个 GT-LQ 帧之间的不对齐，特别是在长距离运动期间，误差会逐渐累积。为了缓解这个问题，在均匀移动阶段前后分别放置可识别的参考对象作为开始标记和结束标记。换句话说，一旦开始标记消失，就以逐帧的方式从均匀移动阶段手动选择对齐的 GT-LQ 帧，直到结束标记出现在减速阶段。

尽管在每一轮中滑动速度相同，捕获的 GT 和 LQ 序列仍然表现出一些不可预测的时间对齐误差。为了解决这个问题，引入了一种匹配对齐策略，多次捕捉每个场景。通过重复捕获三个 GT 序列和三个 LQ 序列，并计算每个序列中开始标记出现和消失之间的时间间隔，从而得到六个不同的时间间隔。然后，将第二个 GT 序列与第一个 LQ 序列进行匹配，其时间间隔的绝对误差最小（0.1s）。采用匹配对准策略，保证了 GT 和 LQ 的时序对准误差序列小于 0.2s，便于准确数据对齐。

最终，使用上述流程，本文总共捕获了大约 8,500 个场景，其中包括 3,800 个室内场景和 4,700 个室外场景。涵盖了 20 种类型的降解，其中 7 种是孤立的，13 种是耦合的。提出的数据集的训练集和测试集分别包含 1,011,614 和 1,500 对图像。所有图像的平均分辨率为 2514 × 1516。与现有的通用图像复原数据集相比，本文的训练数据提供了两个显著的优势：（1）更大规模的现实世界场景，由于现有方法将几个小规模合成数据集作为通用图像复原的训练数据，限制了现实世界的应用和基础模型的开发。（2）具有更高多样性的退化类型，现有的训练数据集只考虑有限的孤立退化类型，而在现实场景中，图像退化通常涉及多种退化类型的复杂相互作用和耦合。

方法

为了更好地处理真实场景中复杂且多样的退化，本文提出了 FoundIR，这是一个基于百万规模数据集训练的图像复原模型。在大语言模型（LLM）领域中集成学习的启发下，本文将一个通才模型和多个专家模型合并到 FoundIR 中形成一个集成学习的框架，从而在更广泛的真实场景中实现更好的泛化，同时在特定场景中实现更高的恢复质量。下图给出了 FoundIR 方法的总览图。

首先，采用通才模型来从输入图像中去除多重退化。为了减轻由于学习不同退化的特定表示而造成的模型负担，本文引入了学习与退化无关的复原阶段。这个阶段的目的是形成一个公共的表征空间，在这个空间中，学习到的特征有助于去除各种退化，提高模型在现实场景中的鲁棒性。具体来说，利用残差扩散模型通过在马尔可夫链中传递 LQ 图像和 HQ 图像之间的残差分量来有效地解耦复杂的退化信息。受 RDDM、DiffUIR 等工作的启发，对输入退化图像引入了附加约束，在正向扩散过程中，随着噪声值的逐渐增大，与退化输入相关的信号同时减弱。通过控制学习系数，将不同退化的 LQ 逐渐形成一个共同的数据分布，有利于模型最终学习到与退化无关的公共表征空间。

本文注意到，现有的通用图像复原方法通常通过简单地组合所有数据或选择来自不同退化类型的小批次，进行训练来构建训练批次。然而，随着训练数据规模的急剧增加，模型容易忘记之前的知识，在早期任务序列上的性能下降，使模型优化变得更加困难。为了减轻灾难性遗忘的问题，本文采用增量学习策略来促进更好的模型收敛。具体而言，本文首先建立任务增量池，逐步添加来自不同任务的数据流，以防止模型早期学习阶段多个任务之间的干扰和竞争。与仅仅考虑与任务相关的增量关系不同，本文还在整个训练管道中添加了类别增量流，以更好地适应现实场景中的多变的退化。在这里，将训练数据分为两类：孤立退化学习类和耦合退化学习类。首先从孤立的退化类中抽取批次进行 n 次迭代训练，得到一个模型参数，该参数学习了各种孤立退化的知识。通过这种方式，在孤立退化类上训练良好的模型可以为耦合退化类的训练提供坚实的起点。从这两个类中抽取组合批次进行 2n 次迭代训练，从而使模型参数进一步实现过渡更新。

最近的研究表明，通才模型在某些任务上的表现通常不如专家模型，这可归因于任务干扰。为此，本文进一步引入了几个专才模型，通过考虑退化感知信息的特征来改进复杂场景下的部分恢复能力。根据输入图像中的特定退化模式，自动从专家池中为每个场景选择最合适的模型，以确保高质量的输出。例如，利用天气专家来提高恶劣天气条件下的修复质量，利用照度专家来提高低光照条件下的修复质量。与使用多个专家模型进行顺序恢复不同，本文方法允许专家模型共享他们的专业知识，共同提高恢复质量。在通才模型前期修复结果的指导，后续专才模型可以快速适应特定的任务，使得训练成本更低。

实验

数据集及训练细节：本工作使用了所提的百万级训练数据集上进行了训练，在所提测试集上进行性能评估，包含 20 个不同真实退化类别。此外，还在四个公开的真实世界基准上评估了模型的通用性，包括 4KRD（去模糊）、RealRain-1K（去雨）、HazeRD（去雾）和 UHD-LL（暗光增强和去噪）。本文采用在 RGB 通道上计算的 PSNR 和 SSIM 作为评估指标。在训练过程中，本文使用 Adam 优化器进行了的迭代训练。Batch size 设为 80，Patch size 设为，初始学习率设置为，经过的迭代后，学习率降至。在测试过程中，首先将整个图像裁剪成的 patches 作为输入，然后将其拼接复原。
与现有方法对比：本文把所提的 FoundIR 与 16 种最新的通用图像复原方法进行了比较，包括 Real-ESRGAN、AirNet、DGUNet、Restormer、TransWeather、IDR、PromptIR、DiffIR、IR-SDE、RDDM、DiffUIR、DA-CLIP、X-Restormer、SUPIR、InstructIR 和 AutoDIR。除了一些方法（SUPIR、InstructIR 和 AutoDIR）受到训练资源及其独特方法的限制外，其他方法都是在所提的数据集上重新训练的。
定量结果：本文在所提测试集和公开数据集上均进行了定量评估，其结果对比如下图：

Table 1 显示，所提的 FoundIR 在包括单一和耦合退化类型的所提基准测试集上，在平均性能上取得了最佳定量结果。Table 2 显示，FoundIR 在公共测试集上仍然取得了最佳的定量结果，这表明它有能力很好地泛化非分布数据。为了进一步证明在所提的数据集上训练的模型能够更好地泛化到真实场景中，本文还比较了在所提的数据集上训练的模型和在现有公共数据集上训练的模型的性能。结果表明，在所提的数据集上训练的 DiffUIR 在各种图像恢复任务中的性能都得到了持续提高（例如，DiffUIR 在 RealRain-1K 数据集上的 PSNR 提高了 6dB），这证明了所提数据集的泛化性。
定性结果：本文展示了所提方法与其他方法在所提测试集上的定性对比结果，其可视化结果如下图所示：

与基于 Transformer 的 PromptIR 和基于扩散模型的 AutoDIR 相比，所提的 FoundIR 对单一和耦合退化图像输入都能恢复更好的结构和细节，这表明了 FoundIR 具有更全面的图像恢复能力。

结论

本文贡献了一个 100 万张 LQ-GT 配对图像的大规模高质量数据集，为通用图像复原基础大模型提供了宝贵的训练资源。此外，本文也提出了一个鲁棒的图像复原模型 FoundIR 作为潜在的解决方案，以解决更广泛的真实世界的退化场景，同时利用增量学习策略来促进大规模数据训练。大量的实验证明了本文提出的数据集的价值，以及方法的有效性。

END

来源：AIWalker

推荐阅读

本文章著作权归作者所有，任何形式的转载都请注明出处。更多动态滤波，图像质量，超分辨相关请关注我的专栏AIWalker。欢迎添加极术小姐姐微信（id:aijishu20)加入技术交流群，请备注研究方向。

简介

介绍

数据集

方法

实验

结论

推荐阅读

目录