Happy

发布了文章 · 5月30日

修图模型照妖镜上线！ImgEdit-Bench三维「死亡评测」曝光，谁在裸泳一测便知

亮点直击稳健的流程。引入了一个高质量的数据生成流程，确保数据集具有多样性、代表性，并具备足够的质量以支持图像编辑模型的开发。新数据集。构建了 ImgEdit，一个大规模、高质量的数据集，包含 110 万单轮样本（涵盖 10 种代表性编辑任务）和 11 万多轮样本（包含 3 种新颖的交互类型）。可靠的基准。发布了 ImgEdi...

发布了文章 · 4月8日

Adobe 提出 TurboFill！快速图像修复新方法！4 步即可修复高清图像！

论文名：TurboFill: Adapting Few-step Text-to-image Model for Fast Image Inpainting论文链接：[链接]开源代码：[链接]

发布了文章 · 3月26日

ContinuousSR：从离散低分图像中重建连续高分辨高质量信号

中国科学技术大学、华为诺亚实验室、港科大、清华大学等单位联合提出了一种超快速的任意尺度超分方法，ContinuousSR。

发布了文章 · 3月21日

CVPR`25 | 让暗光照片秒变电影大片！全球首个可训练的HVI色彩空间，突破低光增强瓶颈！

亮点直击为 LLIE 任务引入了一种新的全球首个可训练的颜色空间，该空间由极化的 HS 和可训练的强度唯一定义。这提供了一个有效工具，消除了 HSV 空间产生的颜色空间噪声，显著增强了低光图像的亮度。进一步提出了一种新颖的 LLIE 网络 CIDNet，用于在 HVI 空间中同时建模低光图像的强度和色度。尽管该网络轻量且计算高效...

发布了文章 · 3月13日

面向真实场景图像复原，字节跳动提出扩散复原适配器，表现卓越！

扩散模型在生成高度复杂图像分布方面表现出强大的图像生成能力，可作为图像恢复的有力先验。现有方法常利用 ControNet 等技术，以低质量图像为条件从这些先验中采样高质量图像。然而，ControNet 通常需要复制原网络的大部分，导致随着先验规模增大，参数数量显著增加。本文提出一种相对轻量级的 Adapter，利用预训练先验...

发布了文章 · 3月11日

英伟达提出首个 Mamba-Transformer 视觉骨干网络！打破精度/吞吐瓶颈

【新智元导读】CVPR 2025，混合新架构 MambaVision 来了！Mamba+Transformer 混合架构专门为 CV 应用设计。MambaVision 在 Top-1 精度和图像吞吐量方面实现了新的 SOTA，显著超越了基于 Transformer 和 Mamba 的模型。

发布了文章 · 3月3日

自回归视觉生成破局：Next-X 预测，开辟视觉新路径

本文提出了一种通用的 AR 框架 xAR，将标记的概念扩展到灵活的实体 X，X 可以表示为单个图像块、一组邻近块（cell）、非局部分组（subsample）、分辨率（scale）或整个图像。此外，我们将离散标记分类重新表述为连续实体回归，利用流匹配（flow-matching）方法进行每个 AR 步骤的训练。这种方法在训练中使用噪声实体而不...

发布了文章 · 2月20日

YOLOv12 来袭，更高性能、更快速度~

论文：[链接]代码：[链接]本文创新点这篇论文围绕实时目标检测，在网络架构设计上引入创新，克服了传统注意力机制在实时应用中的速度瓶颈，提升了检测性能。构建注意力中心框架突破传统 YOLO 依赖 CNN 架构的局限，以注意力机制为核心设计 YOLOv12 框架，发挥注意力机制强大的建模能力，打破 CNN 模型在 YOLO 系列中的主...

发布了文章 · 1月6日

从文字到视觉：EvalMuse-40K 如何评价 T2I 模型的进化

近年来，文生图（T2I）模型技术迅速发展，催生了 Dreamina、DALL·E3 和 Midjourney 等热门工具。它们能够精准理解用户的 prompt（提示词），将简短描述转化为高质量且富有美感和一致性的图像。这一技术显著降低了创作门槛，提升了效率和趣味性，让艺术创作、广告设计及日常分享变得更加简单直观。文生图技术的普及，为数...

发布了文章 · 2024年12月09日

FoundIR: 释放百万规模高质量训练数据，助推图像复原基础模型

尽管 all-in-one 模型在通用图像复原方面取得了重大进展，但现有方法在现实场景中存在泛化瓶颈，因为它们大多是在退化有限的小规模合成数据集上训练的。因此，迫切需要大规模的高质量真实世界训练数据，以促进图像复原基础模型的出现。为了推进这一领域，作者团队不遗余力地贡献了一个百万规模的数据集，它比现有的训练...

发布了文章 · 2024年04月01日

CPU推理1ms的SHViT Backbone 来啦

近期，高效的视觉 Transformer 在资源受限的设备上展现出优异的低延迟性能。传统上，它们在宏观层面上采用4×4的块嵌入和4阶段结构，同时在微观层面上使用具有多头配置的复杂注意力机制。本文旨在以节省内存的方式解决所有设计层面的计算冗余问题。作者发现，使用更大步长的块状处理初始部分不仅能降低内存访问成本，还通...

发布了文章 · 2024年03月05日

"羊驼"入侵CV，美团&浙大沈春华团队将LLaMA向CV扩展，构建全新基础模型VisionLLaMA

大型语言模型构建在基于Transformer的架构之上来处理文本输入, LLaMA 系列模型在众多开源实现中脱颖而出。类似LLaMa的Transformer可以用来处理2D图像吗？在本文中，我们通过提出一种类似 LLaMA 的朴素和金字塔形式的Transformer来回答这个问题，称为 VisionLLaMA。VisionLLaMA 是一个统一的通用建模框架，用于解决大多数...

发布了文章 · 2024年02月04日

ICLR2024 | 东北大学提出用于移动端的高效调制方案EfficientMod，即将开源！

本文对现有调制记住(Modulation Mechnisam)进行了重思考，提出了一种高效调制模块(Efficient Modulation, EfficientMod)用于构建推理高效网络。受益于调制机制的突出的表达能力与高效设计理念，所提方案取得了更优的精度-效率均衡，在高效网络方面达成新的SOTA性能。当与自注意力相结合后，混合网络可以取得进一步的性能...

发布了文章 · 2024年01月19日

华科王兴刚团队首次将Mamba引入ViT，更高精度、更快速度、更低显存！

在Transformer如日中天时，一个称之为“Mamba”的架构横冲出世，在语言建模上与Transformers不相上下，具有线性复杂度，同时具有5倍的推理吞吐量！一时之间，被给予厚望“下一代架构”~

发布了文章 · 2024年01月03日

语义分割新SOTA：华科与美团联合提出单分支推理分割架构SCTNet，即将开源！

最新的实时语义分割方法通常采用额外的语义分支来追求丰富的长距离上下文。然而，额外的分支会带来不必要的计算开销，并减缓推理速度。为了消除这一困境，我们提出了SCTNet，一种带有transformer语义信息的单分支CNN用于实时分割。

发布了文章 · 2023年12月28日

BFRffusion | 面向真实世界的盲人脸复原，中山大学提出全新盲人脸复原基准数据集

人脸盲复原是计算机视觉领域的一个重要课题，由于其广泛的应用而受到人们的广泛关注。在这项工作中，我们深入研究了利用预训练的稳定扩散进行盲脸恢复的潜力，

发布了文章 · 2023年12月18日

通用检测大模型 | 华科白翔团队提出以对象为中心的基础模型GLEE

通过一个统一的框架，GLEE可以在开放世界场景中完成任意物体的检测、分割、跟踪、接地和识别，以完成各种物体感知任务。

发布了文章 · 2023年12月14日

端侧显著性检测新高度，OPPO提出面向真实场景的PSUNet

在高分辨率场景下，现有的显著目标检测方法难以同时满足快速推理和准确结果的要求。它们受到用于高分辨率图像的公共数据集和高效网络模块的质量的限制。

发布了文章 · 2023年12月13日

38.7fps！EdgeSAM = RepViT + SAM，移动端超强变种，已开源！

对于 2023 年的计算机视觉领域来说，「分割一切」（Segment Anything Model）是备受关注的一项研究进展。尽管SAM具有各种优势，但速度慢是其不得不提的一个缺点，端侧根本就跑不动。研究者们也提出了一些改进策略：将默认 ViT-H 图像编码器中的知识提炼到一个微小的 ViT 图像编码器中，或者使用基于 CNN 的实时架构降低...