爱笑的小姐姐 · 10月31日

NeurIPS 2024 | TextHarmony: 基于统一架构的视觉文本理解与生成模型

image.png

论文标题:Harmonizing Visual Text Comprehension and Generation
论文地址https://arxiv.org/abs/2407.16364
论文源码https://github.com/bytedance/TextHarmony

引言

在人工智能领域,赋予机器类人的图像文字感知、理解、编辑和生成能力一直是研究热点。目前,视觉文字领域的大模型研究主要聚焦于单模态生成任务。尽管这些模型在某些任务上实现了统一,但在 OCR 领域的多数任务上仍难以达成全面整合。

例如,Monkey 等视觉语言模型(VLM)擅长文字检测、识别和视觉问答(VQA)等文本模态生成任务,却无法胜任文字图像的生成、抹除和编辑等图像模态生成任务。

反之,以 AnyText 为代表的基于扩散模型的图像生成模型则专注于图像创建。因此,OCR 领域亟需一个能够统一多模态生成的大模型

image.png

关键问题

多模态生成的内在矛盾

研究人员发现,多模态生成大模型面临视觉与语言模态之间的固有不一致性,这往往导致模型性能显著下滑。

image.png

如图所示,在文本生成任务上,**多模态生成模型相比单模态生成模型效果降低5%,在图像生成上降低了8%**。

为应对这一挑战,近期的一些研究采用了特定模态的监督微调,从而分别优化文字生成和图片生成的模型权重。然而,这种方法与统一视觉理解与生成的初衷相悖。

为解决这一难题,字节跳动与华东师范大学的联合研究团队提出了创新性的多模态生成模型:TextHarmony该模型不仅精通视觉文本的感知、理解和生成,还在单一模型架构中实现了视觉与语言模态生成的和谐统一。

技术创新

模型架构

如下图所示,TextHarmony 采用了 ViT、MLLM 和 Diffusion Model 的组合架构实现了多模态内容的全面理解与生成:

  • ViT 负责图像到视觉 token 序列的转换。
  • MLLM 处理视觉 token 和文本 token 的交叉序列,输出两类 token:
  • 文本 token 经文本解码器转化为文本输出。
  • 视觉 token 与文本 token 结合,作为 Diffusion Model 的条件指引,生成目标图像。

image.png

Slide-LoRA

为克服训练过程中的模态不一致问题,研究者提出了 Slide-LoRA 技术。该方法通过动态整合模态特定和模态无关的 LoRA(Low-Rank Adaptation)专家,在单一模型中实现了图像和文本生成空间的部分解耦。

Slide-LoRA 包含一个动态门控网络和三个低秩分解模块:

  • 模态特定 LoRA 专家聚焦于特定模态(视觉或语言)的生成任务。
  • 模态无关 LoRA 专家处理跨模态的通用特征。
  • 动态门控网络根据输入特征,灵活调度不同专家的参与度。

高质量数据集

为提升视觉文本生成性能,研究团队开发了 DetailedTextCaps-100K 数据集。该集利用闭源 MLLM(Gemini Pro)生成详尽的图像描述,为模型提供了更丰富、更聚焦于视觉和文本元素的训练资源。

image.png

训练策略

此外,TextHarmony 采用两阶段训练方法:

  1. 首阶段利用 MARIO-LAION 和 DocStruct4M 等图文对预训练对齐模块和图像解码器,构建基础的文本生成与图像生成能力。
  2. 次阶段运用视觉文本的生成、编辑、理解、感知四类数据进行统一微调。此阶段开放 ViT、对齐模块、图像解码器和 Slide-LoRA 的参数更新,以获得统一的多模态理解与生成能力。

实验评估

研究者对 TextHarmony 在视觉文本场景下进行了全面评估,涵盖理解、感知、生成与编辑四个维度。

视觉文本理解

TextHarmony 显著优于多模态生成模型,性能接近 Monkey 等专业文字理解模型。

image.png

视觉文本感知

在OCR定位任务上,TextHarmony超过了TGDoc、DocOwl1.5等知名模型。

image.png

视觉文本编辑与生成

TextHarmony 大幅领先于现有多模态生成模型,且与 TextDiffuser2 等专业模型相当。

image.png

文字生成效果对比

image.png

文字编辑效果对比

image.png

文字图像感知与理解可视化

image.png

总结与展望

TextHarmony 作为 OCR 领域的多功能多模态生成模型,成功统一了视觉文本理解和生成任务。通过创新的 Slide-LoRA 技术,它有效解决了多模态生成中的模态不一致问题,在单一模型中实现了视觉与语言模态的和谐统一。TextHarmony 在视觉文字感知、理解、生成和编辑方面展现出卓越性能,为复杂的视觉文本交互任务开辟了新的可能性。

这项研究不仅推动了 OCR 技术的进步,也为人工智能在理解和创造方面的发展提供了重要参考。未来,TextHarmony 有望在自动文档处理、智能内容创作、教育辅助等多个领域发挥重要作用,进一步推动人工智能的应用。

END

作者:派派星
来源:CVHub

推荐阅读

欢迎大家点赞留言,更多Arm技术文章动态请关注极术社区嵌入式AI专栏欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。

推荐阅读
关注数
18838
内容数
1371
嵌入式端AI,包括AI算法在推理框架Tengine,MNN,NCNN,PaddlePaddle及相关芯片上的实现。欢迎加入微信交流群,微信号:aijishu20(备注:嵌入式)
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息