Happy · 2 天前

修图模型照妖镜上线!ImgEdit-Bench三维「死亡评测」曝光,谁在裸泳一测便知

image.png

文章链接:https://arxiv.org/pdf/2505.20275 
Git 链接:https://github.com/PKU-YuanGr...

亮点直击

  • 稳健的流程。引入了一个高质量的数据生成流程,确保数据集具有多样性、代表性,并具备足够的质量以支持图像编辑模型的开发。
  • 新数据集。构建了  ImgEdit,一个大规模、高质量的数据集,包含 110 万单轮样本(涵盖 10 种代表性编辑任务)和 11 万多轮样本(包含 3 种新颖的交互类型)。
  • 可靠的基准。发布了  ImgEdit-Bench,该基准在三个关键维度(基础测试集、挑战性测试集和多轮测试集)上评估模型性能。
  • 先进模型。在 ImgEdit 上训练了  ImgEdit-E1,其在多项任务上超越现有开源模型。还发布了  ImgEdit-Judge,这是一个与人类偏好对齐的评估模型。

总结速览

解决的问题

  • 开源图像编辑模型性能落后于闭源模型:主要原因是缺乏高质量的开源编辑数据集和有效的评估基准。
  • 现有数据集质量不足:图像分辨率低、编辑提示简单、编辑区域小、编辑不准确、概念不平衡、过滤不精确。
  • 复杂编辑任务支持不足:缺乏身份一致性保持、多对象同时操作、多轮交互编辑等任务。
  • 评估基准不完善:现有评估框架缺乏多样性,未分层任务难度,过度关注编辑类别数量,忽视评估维度和测量准确性。

提出的方案

  1. ImgEdit 数据集
  • 包含  120 万高质量编辑样本(110 万单轮 + 11 万多轮)。
  • 涵盖  10 种编辑操作,包括对象提取、多对象混合编辑等。
  • 多轮样本支持  内容理解、内容记忆、版本回溯
  1. 自动化数据构建流程
  • 多阶段筛选(美学评分、分辨率、可编辑区域)。
  • 结合  开放词汇检测器  和  视觉分割模型  生成对象级标注。
  • 使用  GPT-4o  生成多样化单轮/多轮编辑提示。
  • 采用  任务特定工作流(如 SOTA 生成模型)创建编辑对。
  • 通过  GPT-4o  进行编辑对质量评估。
  1. ImgEdit-E1 模型:基于视觉语言模型(VLM)的编辑模型,支持参考图像和编辑提示处理。
  2. ImgEdit-Bench 基准
  • 基础测试集:评估指令遵循、编辑质量、细节保留。
  • 理解-定位-编辑(UGE)测试集:测试空间推理、多对象目标等复杂任务。
  • 多轮编辑测试集:评估内容理解、记忆和回溯能力。
  • 引入  ImgEdit-Judge  评估模型,与人类偏好对齐。

应用的技术

  • 数据生成

    • GPT-4o(生成多样化编辑提示)。
    • 开放词汇检测器(对象定位)。
    • 视觉分割模型(精细化区域标注)。
    • SOTA 生成模型(如 Stable Diffusion、DALL·E 等)创建编辑图像。
  • 模型训练

    • 视觉语言模型(VLM)  架构,用于处理参考图像和编辑指令。 - 评估方法
    • 自动化评估(ImgEdit-Judge):模拟人类偏好。
    • 多维度测试集(基础、UGE、多轮)。

达到的效果

  • 数据集质量提升

    • 在  任务新颖性  和  数据质量  上超越现有数据集(如 MagicBrush、SEED-Data-Edit)。
  • 模型性能提升

    • ImgEdit-E1  在多项任务上优于现有开源模型,缩小与闭源模型的差距。
  • 评估更全面

    • ImgEdit-Bench 提供  分层难度评估,覆盖基础、复杂单轮、多轮编辑任务。
    • 通过  ImgEdit-Judge  实现高效、可靠的大规模评估。

ImgEdit: 高质量数据集

ImgEdit 提供高保真度的编辑对,包含精确、全面的指令,并涵盖更广泛的实用和挑战性编辑类型。先概述单轮和多轮编辑类型,接着详述数据流程。再介绍  ImgEdit-E1,一个基于 ImgEdit 训练的前沿编辑模型。最后展示数据集统计信息。

编辑类型定义

本文定义两类编辑任务:单轮和多轮。单轮任务侧重于覆盖全面且实用的任务,而多轮任务则整合连续编辑场景中的指令和图像交互。

单轮编辑
基于实际编辑需求,将单轮任务分为四类(如下图 1 所示):

  • 局部编辑:包括  添加、移除、替换、修改、动作变化  和  对象提取  操作。颜色、材质或外观的变化归类为修改。由于人物动作编辑是常见用例,特别支持针对人物的动作变化。此外,引入新颖的  对象提取任务(如“将猫提取到白色背景”),可在干净背景上分离指定主体,同时保持身份一致性。该能力目前仅 GPT-4o-image 支持。
  • 全局编辑:包括  背景替换  和  风格/色调迁移
  • 视觉编辑:基于参考图像编辑(如“给猫添加围巾”),确保对象一致性。与 AnyEdit 不同,省略了分割、草图或布局引导的变体,因实际应用中此类视觉提示较少。
  • 混合编辑:单条指令中对多个对象应用两种局部操作(如“添加围巾并将猫毛色改为白色”)。

多轮编辑
基于现有多轮理解基准和实际需求,定义多轮编辑的三大挑战(如下图 1 所示):

  • 内容记忆:对话早期引入的全局约束(如“所有生成需带木质纹理”)需在后续轮次中保持。
  • 内容理解:解析依赖代词或省略主语的指令(如“将左侧衣柜里的衣物改为黑色”隐含指代首轮添加的衣物)。
  • 版本回溯:基于早期版本编辑(如“撤销上一步更改”)。这三类挑战覆盖了多轮交互编辑的主要难点。

图片

自动化数据流程

数据准备采用  LAION-Aesthetics  作为主数据集,因其场景多样性、高分辨率和更广的对象覆盖。筛选条件:短边 ≥1280 像素且美学评分>4.75,得到 60 万张图像子集。使用 GPT-4o 生成简洁描述并提取可编辑对象及背景名词。

对象定位与分割

  1. 通过开放词汇检测器定位候选实体,生成边界框。
  2. 利用  SAM2  将边界框细化为分割掩码。
  3. 计算裁剪对象的  CLIPScore  和面积占比,剔除低相似度或过小区域,确保目标准确且视觉显著。
  • 背景替换任务要求编辑区域占比>40%。
  • 动作变化编辑:额外从  Open-Sora Plan  收集 16 万对人物视频帧,由 GPT-4o 标注动作,构成动作变化子集。

数据准备
采用LAION-Aesthetics作为核心数据集。该数据集在场景多样性、分辨率以及物体类别的全面性上表现更优。仅保留短边 ≥1280 像素且美学评分>4.75,得到 60 万张图像子集。使用 GPT-4o 重新生成简洁的文本描述,并提取可编辑对象及背景名词。每个候选实体通过开放词汇检测器进行定位,生成的边界框再由 SAM2 优化为分割掩码。由此,每个对象和背景区域均获得边界框与掩码。

由于检测与分割并非完美,通过掩码裁剪每个对象,并计算:

  • 裁剪区域与对象名称的 CLIPScore 相似度
  • 区域面积占比

对相似度低或面积可忽略的区域进行剔除,确保剩余目标识别准确且视觉显著性满足后续编辑需求。具体而言,在背景替换任务中,要求编辑区域需占图像总面积 40%以上。

针对动态变化编辑任务,额外从内部视频库 Open-Sora Plan 收集了 16 万张以人物为主的图像对。通过时间子采样帧并利用 GPT-4o 标注动作信息,最终构成动态变化编辑子集。

指令生成模块
通过原始图像描述、编辑类型、边界框和目标物体作为条件输入生成指令。由于目标物体的精确定位对编辑至关重要,系统要求语言模型在编辑指令中嵌入物体位置和近似尺寸(以边界框为参考)。低性能 LLMs 易引入知识偏差导致低质量指令,因此采用尖端大语言模型(如 GPT-4o),该模型不仅能理解多样化指令格式、生成概念丰富的编辑指令,还能高保真编码空间信息。多轮指令生成时,提供少量上下文示例让模型单次生成完整对话,再拆分为独立轮次,每轮对话限制 2-3 回合,包含添加、删除、替换、修改四类基础操作。

修复工作流
选用 FLUX 和 SDXL 作为基础生成模型,结合 IP-Adapters、ControlNet 等插件实现精准可控编辑。针对不同编辑场景构建定制化数据生产管线,例如:在视觉编辑任务中利用 FLUX 架构的上下文保持能力,通过 FLUX-Redux 控制语义一致性。生成图像在审美质量和编辑保真度上均超越现有数据集。

后处理流程
在基于物体面积、CLIP 分数和美学分数的粗过滤基础上,使用 GPT-4o 进行精细过滤:为每个编辑对按编辑类型特定的评分标准分配质量分数,并提供详细评分依据供用户筛选。

ImgEdit-E1 评估模型

为评估所收集数据的质量,在 ImgEdit 数据集上训练了 ImgEdit-E1 模型。如下图 2 所示,该模型整合了视觉语言模型(VLM)、视觉编码器以及 Diffusion-in-Transformer(DiT)主干网络。编辑指令与原始图像共同输入 VLM 处理,同时图像经由视觉编码器并行处理。VLM 的隐藏状态与视觉编码器的图像特征分别通过多层感知机(MLP)映射后拼接,构成 DiT 的文本分支输入。训练采用两阶段策略:先优化 MLP 参数,随后对 FLUX 模块与 MLP 进行联合微调。

图片

数据集统计

包含 120 万高质量图像编辑对(含 11 万组多轮样本),覆盖 13 类编辑任务。相比现有数据集,具有更丰富语义、更详细指令、更高分辨率(平均短边 1280 像素)和更优编辑精度。其 8.7k 独特词汇量的指令多样性,以及经 GPT-4o 评估的最高编辑准确率(抽样 1000 例验证)尤为突出。像素级差异分析显示,局部编辑区域修改幅度显著大于其他数据集,且经专业检测器验证更难定位编辑痕迹,证实其图像质量优势。其物体提取和视觉编辑子集首次实现了高度主体一致性的编辑任务。完整统计数据见下图 3 与表 1。

图片

图片

ImgEdit-Bench:综合性图像编辑基准测试 ‌

ImgEdit-Bench 为单轮和多轮图像编辑任务提供系统性评估框架。先阐述基准数据集的构建原则,接着定义量化评估指标,再提出专用于图像编辑任务评估的模型 ImgEdit-Judge。

图片

基准数据集构建 ‌

模型能力划分为 ‌ 基础编辑能力 ‌ 与 ‌ 复杂场景性能 ‌ 两类:

基础编辑测试集
我评估模型完成常规任务的能力,涵盖添加、删除、修改、替换、风格迁移、背景替换、动态调整、混合编辑、抠图处理 9 大类任务。所有测试图像均从互联网人工收集。为确保语义多样性,从六大超类别(人物、交通工具、自然、动物、建筑、生活必需品)中每类选取十个代表性概念。

  • 添加任务:为每张背景简洁的图片搭配五个不同概念的指令。
  • 移除/修改/替换/抠图/混合编辑任务:选择主体突出且物体稀疏的照片。
  • 风格迁移:测试主流艺术风格。
  • 背景替换:选用适合场景置换的图像。
  • 动态变化:基于以人物为主的图像进行评估。

所有指令均由 GPT-4o 初步生成,并经过人工筛选。最终基准测试集包含 734 个测试用例,指令长度从简略到详尽不等。

理解-定位-编辑(UGE)测试套件 ‌:人工精选 47 张互联网复杂场景图像,涵盖目标局部遮挡、同类多实例、伪装/低显著性物体、罕见编辑对象四大挑战。每图设计需综合空间推理、多目标协同操作、复合细粒度编辑或大规模修改的指令,提升单条指令的理解-定位-执行难度。

多轮交互测试套件 ‌:从 ‌ 内容记忆 ‌、‌ 上下文理解 ‌、‌ 版本回溯 ‌ 三维度评估真实交互场景。每任务选取 10 张图像人工设计 3 轮对话流程,形成结构化测试序列。

评估指标 ‌

从 ‌ 指令遵循度 ‌、‌ 编辑质量 ‌、‌ 细节保留度 ‌ 三个维度量化模型性能:

指令遵循度 ‌:衡量对指令语义理解和概念对齐能力,作为基础得分限制其他两项上限(编辑质量与细节保留得分不得超过该值);  
编辑质量 ‌:量化目标区域操作精度;  
细节保留度 ‌:评估非编辑区域保真程度。  
评分采用 GPT-4o 按 1-5 分制执行,每类任务配备详细评分细则。多轮场景中由人工评估员基于标准化指南对模型输出进行 ‌ 二元判断 ‌。

真实性量化指标 ‌:引入 ‌ 伪造分数 ‌ 评估生成图像伪影可检测性,采用最新开源取证检测器 FakeShield 定位编辑痕迹。通过计算多类编辑数据集的召回率(以伪造为正类),横向对比结果验证生成图像的视觉真实性与编辑质量。

ImgEdit-Judge 评估模型 ‌

鉴于视觉语言模型(VLM)评分相较于传统相似性指标更具合理性,且当前缺乏开源的图像编辑专用评估器,我们构建了包含 20 万条后处理评分记录的 ‌ 任务平衡与评分平衡语料库 ‌,用于微调 Qwen2.5-VL-7B 模型。通过人工研究验证,每张图像由人工标注员、Qwen2.5-VL-7B、ImgEdit-Judge 与 GPT-4o-mini 并行评分,并选取 60 张图像进行深度分析。当模型评分与人工评分差异不超过 1 分时视为有效判定。如下图 4 所示,ImgEdit-Judge 与人工评判一致性接近 70%,显著优于 GPT-4o-mini 和原生 Qwen2.5-VL 模型。

图片

实验分析 ‌

本节系统评估现有编辑模型与 ImgEdit-E1 性能:先阐述实验配置,再呈现结果定量与定性分析,最后展开深度讨论。

实验设置 ‌

单轮测试环境 ‌:
闭源模型 ‌:GPT-4o-Image(Gemini-2.0-Flash 未开放 API) 
开源模型 ‌:Step1X-Edit、Ultra-Edit、AnySD、MagicBrush、InstructPix2Pix 及 ImgEdit-E1 
架构对比 ‌:除 ImgEdit-E1 与 Step1X-Edit 采用 VLM 文本编码器+DiT 主干网络外,其余模型均基于 UNet 架构与预训练文本编码器。AnySD 额外集成任务感知 MoE 模块。

参数配置 ‌:
输入分辨率:UltraEdit/AnySD 输出 512×512 像素,其余模型输出 1024×1024 像素  
重复实验:每个模型执行 3 次独立实验,报告平均得分  
多轮测试 ‌:仅支持 GPT-4o-Image 与 Gemini-2.0-Flash 两模型

实验结果 ‌

定量评估
首先对不同方法进行了全面的定性评估(结果如下图 5 所示)。开源模型与闭源模型之间存在显著性能差距:GPT-4o-image 在所有维度上均优于开源模型,仅在部分高难度任务中稍显不足。该模型同时获得最高的 UGE 综合评分,展现出更强的理解能力、定位能力和编辑能力。

图片

在开源模型中,ImgEdit-E1 与 Step1X-Edit 表现最佳,在部分任务上接近闭源模型水平。其中:

  • ImgEdit-E1  全任务表现均衡,因其采用高质量训练数据,在物体提取和混合编辑任务中显著领先其他开源模型
  • Step1X-Edit  综合性能与 ImgEdit-E1 相当,但在背景替换、属性修改等高难度任务中表现欠佳
  • AnySD  各项任务表现中庸,可能因其数据集覆盖编辑任务广泛但数据质量不足
  • UltraEdit  因训练集未包含移除任务,在该任务中表现极差
  • MagicBrush  和  InstructPix2Pix  因训练数据质量与模型结构过于简单,存在图像畸变、指令跟随失败等问题

值得注意的是,所有模型的编辑输出均获得极高的"虚假评分",表明现有检测模型仍能轻易识别合成内容。

在多轮编辑任务中,仅GPT-4o-ImageGemini-2.0-flash展现两轮内的版本回溯能力。现有模型普遍存在内容记忆与理解缺陷,时而出现指代误解或前提丢失的情况,总体上对多轮编辑的支持仍不充分。

定性评估 ‌选取了多种任务的代表性案例进行定性分析,如下图 6 所示。在改变自行车颜色同时保留积雪的任务中,仅有 ImgEdit-E1 和 GPT-4o-Image 成功达成。涉及物体移除的任务中,AnySD 和 Step1X-Edit 生成结果模糊,Gemini 错误地将路灯一并移除,其他模型则未能遵循指令。相比之下,ImgEdit-E1 和 GPT-4o-Image 完美完成了任务。在背景修改任务中,ImgEdit-E1 和 Step1X-Edit 在所有开源模型中与提示要求契合度最高。对于物体替换任务,闭源模型的处理结果明显更自然,而多数开源模型未能完成编辑。在色彩修改任务中,只有 ImgEdit-E1 和闭源模型在保留复杂细节的同时精准遵循了指令。此外,仅 GPT-4o-Image 和 ImgEdit-E1 成功完成了物体提取任务。

图片

讨论 ‌

根据基准测试结果,确定了影响编辑模型性能的三大关键因素:指令理解、区域定位和编辑执行。

指令理解能力  指模型解析编辑指令的能力,主要由文本编码器决定,并显著影响编辑效果。传统模型使用 T5 或 CLIP 等编码器,虽能处理简单任务(如风格迁移),但在复杂的区域特定任务上表现欠佳。我们的评估显示,ImgEdit-E1 和 Step1X-Edit 大幅优于其他开源模型,印证了更强文本编码器和更丰富文本特征的重要性。

区域定位能力  指准确识别并定位待编辑区域的能力,既依赖指令理解,也取决于视觉感知水平。在需要精确定位的任务(如属性修改和物体提取)中,ImgEdit-E1 的表现远超现有开源编辑模型,凸显了提示信息中空间定位的关键作用。

编辑执行能力  指泛化各类编辑操作的能力,主要取决于训练数据的质量、规模和多样性。由于物体提取任务缺乏高质量数据,包括 GPT-4o 在内的其他模型在此类任务中表现不佳,这再次证明构建全面、高质量编辑数据集的必要性。

结论 ‌

ImgEdit 框架推动了图像编辑领域的发展:它克服了现有数据集的质量缺陷,引入了实用的编辑任务分类体系,并为未来数据集构建提供了稳健的流程。ImgEdit-E1 的优异表现验证了该框架的可靠性。此外,ImgEdit-Bench 从创新维度评估模型性能,为图像编辑模型的数据筛选和架构设计提供了重要洞见。通过提供高质量数据集、高效编辑方法和全面评估基准,本文的工作有助于缩小开源方案与顶尖闭源模型之间的差距,并将推动整个图像编辑领域的进步。

参考文献

[1] ImgEdit: A Unified Image Editing Dataset and Benchmark

END

作者:Yang Ye 等
来源:AIWalker

推荐阅读

本文章著作权归作者所有,任何形式的转载都请注明出处。更多动态滤波,图像质量,超分辨相关请关注我的专栏AIWalker。欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。
推荐阅读
关注数
6206
内容数
201
夯实深度学习知识基础, 涵盖动态滤波,超分辨,轻量级框架等
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息