论文名:TurboFill: Adapting Few-step Text-to-image Model for Fast Image Inpainting论文链接:[链接]开源代码:[链接]
中国科学技术大学、华为诺亚实验室、港科大、清华大学等单位 联合提出了一种超快速的任意尺度超分方法,ContinuousSR。
亮点直击为 LLIE 任务引入了一种新的全球首个可训练的颜色空间,该空间由极化的 HS 和可训练的强度唯一定义。这提供了一个有效工具,消除了 HSV 空间产生的颜色空间噪声,显著增强了低光图像的亮度。进一步提出了一种新颖的 LLIE 网络 CIDNet,用于在 HVI 空间中同时建模低光图像的强度和色度。尽管该网络轻量且计算高效...
扩散模型在生成高度复杂图像分布方面表现出强大的图像生成能力,可作为图像恢复的有力先验。现有方法常利用 ControNet 等技术,以低质量图像为条件从这些先验中采样高质量图像。然而,ControNet 通常需要复制原网络的大部分,导致随着先验规模增大,参数数量显著增加。本文提出一种相对轻量级的 Adapter,利用预训练先验...
【新智元导读】CVPR 2025,混合新架构 MambaVision 来了!Mamba+Transformer 混合架构专门为 CV 应用设计。MambaVision 在 Top-1 精度和图像吞吐量方面实现了新的 SOTA,显著超越了基于 Transformer 和 Mamba 的模型。
本文提出了一种通用的 AR 框架 xAR,将标记的概念扩展到灵活的实体 X,X 可以表示为单个图像块、一组邻近块(cell)、非局部分组(subsample)、分辨率(scale)或整个图像。此外,我们将离散标记分类重新表述为连续实体回归,利用流匹配(flow-matching)方法进行每个 AR 步骤的训练。这种方法在训练中使用噪声实体而不...
论文:[链接]代码:[链接]本文创新点这篇论文围绕实时目标检测,在网络架构设计上引入创新,克服了传统注意力机制在实时应用中的速度瓶颈,提升了检测性能。构建注意力中心框架突破传统 YOLO 依赖 CNN 架构的局限,以注意力机制为核心设计 YOLOv12 框架,发挥注意力机制强大的建模能力,打破 CNN 模型在 YOLO 系列中的主...
近年来,文生图(T2I)模型技术迅速发展,催生了 Dreamina、DALL·E3 和 Midjourney 等热门工具。它们能够精准理解用户的 prompt(提示词),将简短描述转化为高质量且富有美感和一致性的图像。这一技术显著降低了创作门槛,提升了效率和趣味性,让艺术创作、广告设计及日常分享变得更加简单直观。文生图技术的普及,为数...
尽管 all-in-one 模型在通用图像复原方面取得了重大进展,但现有方法在现实场景中存在泛化瓶颈,因为它们大多是在退化有限的小规模合成数据集上训练的。因此,迫切需要大规模的高质量真实世界训练数据,以促进图像复原基础模型的出现。为了推进这一领域,作者团队不遗余力地贡献了一个百万规模的数据集,它比现有的训练...
近期,高效的视觉 Transformer 在资源受限的设备上展现出优异的低延迟性能。传统上,它们在宏观层面上采用4×4的块嵌入和4阶段结构,同时在微观层面上使用具有多头配置的复杂注意力机制。本文旨在以节省内存的方式解决所有设计层面的计算冗余问题。作者发现,使用更大步长的块状处理初始部分不仅能降低内存访问成本,还通...
大型语言模型构建在基于Transformer的架构之上来处理文本输入, LLaMA 系列模型在众多开源实现中脱颖而出。类似LLaMa的Transformer可以用来处理2D图像吗?在本文中,我们通过提出一种类似 LLaMA 的朴素和金字塔形式的Transformer来回答这个问题,称为 VisionLLaMA。VisionLLaMA 是一个统一的通用建模框架,用于解决大多数...
本文对现有调制记住(Modulation Mechnisam)进行了重思考,提出了一种高效调制模块(Efficient Modulation, EfficientMod)用于构建推理高效网络。受益于调制机制的突出的表达能力与高效设计理念,所提方案取得了更优的精度-效率均衡,在高效网络方面达成新的SOTA性能。当与自注意力相结合后,混合网络可以取得进一步的性能...
在Transformer如日中天时,一个称之为“Mamba”的架构横冲出世,在语言建模上与Transformers不相上下,具有线性复杂度,同时具有5倍的推理吞吐量!一时之间,被给予厚望“下一代架构”~
最新的实时语义分割方法通常采用额外的语义分支来追求丰富的长距离上下文。然而,额外的分支会带来不必要的计算开销,并减缓推理速度。为了消除这一困境,我们提出了SCTNet,一种带有transformer语义信息的单分支CNN用于实时分割。
人脸盲复原是计算机视觉领域的一个重要课题,由于其广泛的应用而受到人们的广泛关注。在这项工作中,我们深入研究了利用预训练的稳定扩散进行盲脸恢复的潜力,
通过一个统一的框架,GLEE可以在开放世界场景中完成任意物体的检测、分割、跟踪、接地和识别,以完成各种物体感知任务。
在高分辨率场景下,现有的显著目标检测方法难以同时满足快速推理和准确结果的要求。它们受到用于高分辨率图像的公共数据集和高效网络模块的质量的限制。
对于 2023 年的计算机视觉领域来说,「分割一切」(Segment Anything Model)是备受关注的一项研究进展。尽管SAM具有各种优势,但速度慢是其不得不提的一个缺点,端侧根本就跑不动。研究者们也提出了一些改进策略:将默认 ViT-H 图像编码器中的知识提炼到一个微小的 ViT 图像编码器中,或者使用基于 CNN 的实时架构降低...
在过去的10年里,人工智能领域经历了深刻的变革,在这一切中,FAIR一直是许多人工智能研究突破的来源,也是以开放和负责任的方式进行研究的灯塔。
上交&华为海思提出了新的“卷王”Xvolution:它对卷积与自注意力进行了统一集成,同时利用了卷积的局部特征提取能力与自注意力的全局建模能力。更重要的是,它通过结构重参数化思想将训练与推理进行了解耦:在训练阶段采用多分支结构进行训练,在推理阶段等价转换为单一动态卷积形式。