尽管 all-in-one 模型在通用图像复原方面取得了重大进展,但现有方法在现实场景中存在泛化瓶颈,因为它们大多是在退化有限的小规模合成数据集上训练的。因此,迫切需要大规模的高质量真实世界训练数据,以促进图像复原基础模型的出现。为了推进这一领域,作者团队不遗余力地贡献了一个百万规模的数据集,它比现有的训练...
近期,高效的视觉 Transformer 在资源受限的设备上展现出优异的低延迟性能。传统上,它们在宏观层面上采用4×4的块嵌入和4阶段结构,同时在微观层面上使用具有多头配置的复杂注意力机制。本文旨在以节省内存的方式解决所有设计层面的计算冗余问题。作者发现,使用更大步长的块状处理初始部分不仅能降低内存访问成本,还通...
大型语言模型构建在基于Transformer的架构之上来处理文本输入, LLaMA 系列模型在众多开源实现中脱颖而出。类似LLaMa的Transformer可以用来处理2D图像吗?在本文中,我们通过提出一种类似 LLaMA 的朴素和金字塔形式的Transformer来回答这个问题,称为 VisionLLaMA。VisionLLaMA 是一个统一的通用建模框架,用于解决大多数...
本文对现有调制记住(Modulation Mechnisam)进行了重思考,提出了一种高效调制模块(Efficient Modulation, EfficientMod)用于构建推理高效网络。受益于调制机制的突出的表达能力与高效设计理念,所提方案取得了更优的精度-效率均衡,在高效网络方面达成新的SOTA性能。当与自注意力相结合后,混合网络可以取得进一步的性能...
在Transformer如日中天时,一个称之为“Mamba”的架构横冲出世,在语言建模上与Transformers不相上下,具有线性复杂度,同时具有5倍的推理吞吐量!一时之间,被给予厚望“下一代架构”~
最新的实时语义分割方法通常采用额外的语义分支来追求丰富的长距离上下文。然而,额外的分支会带来不必要的计算开销,并减缓推理速度。为了消除这一困境,我们提出了SCTNet,一种带有transformer语义信息的单分支CNN用于实时分割。
人脸盲复原是计算机视觉领域的一个重要课题,由于其广泛的应用而受到人们的广泛关注。在这项工作中,我们深入研究了利用预训练的稳定扩散进行盲脸恢复的潜力,
通过一个统一的框架,GLEE可以在开放世界场景中完成任意物体的检测、分割、跟踪、接地和识别,以完成各种物体感知任务。
在高分辨率场景下,现有的显著目标检测方法难以同时满足快速推理和准确结果的要求。它们受到用于高分辨率图像的公共数据集和高效网络模块的质量的限制。
对于 2023 年的计算机视觉领域来说,「分割一切」(Segment Anything Model)是备受关注的一项研究进展。尽管SAM具有各种优势,但速度慢是其不得不提的一个缺点,端侧根本就跑不动。研究者们也提出了一些改进策略:将默认 ViT-H 图像编码器中的知识提炼到一个微小的 ViT 图像编码器中,或者使用基于 CNN 的实时架构降低...
在过去的10年里,人工智能领域经历了深刻的变革,在这一切中,FAIR一直是许多人工智能研究突破的来源,也是以开放和负责任的方式进行研究的灯塔。
上交&华为海思提出了新的“卷王”Xvolution:它对卷积与自注意力进行了统一集成,同时利用了卷积的局部特征提取能力与自注意力的全局建模能力。更重要的是,它通过结构重参数化思想将训练与推理进行了解耦:在训练阶段采用多分支结构进行训练,在推理阶段等价转换为单一动态卷积形式。
项目主页:[链接]论文:[链接]代码:[链接]图1. LR,GR和SR分别为低清图像、基于对低清图像的认知生成的参考图像和超分图像。图像超分辨率技术旨在将低分辨率图像转换为高分辨率图像,从而提高图像的清晰度和细节真实性。这项技术在手机拍照等领域有着广泛的应用和需求。随着超分技术的发展和手机硬件性能的提升,人们...
雨生成算法有可能改进在雨天条件下的图像泛化能力和场景理解。然而,在实践中,它们会产生瑕疵和失真,并且由于缺乏适当的约束而难以控制生成的雨量。在这篇文章中提出了一种非配对图像到图像翻译框架,用于生成现实的雨天图像。作者首先引入一个三角形概率相似性(TPS)约束来指导生成的图像朝向清晰和雨天图像在鉴别器...
计算机视觉在不同领域解决已成为解决实际问题的常用方法,如智慧农牧管理。这类场景并不需要每秒处理许多帧,此时树莓派这类单板主机就派上了用场。
在各种嵌入式物联网应用中,在微控制器单元(MCU)上开发深度学习模型引起了广泛关注。然而,由于硬件资源限制严重,如何在微控制器上高效地设计和部署最新先进模型(例如,Transformer)具有很大挑战。在本文中,作者提出了 TinyFormer,一个专门为在 MCU 上开发和部署资源高效的Transformer而设计的框架。TinyFormer ...
本文是深圳先进技术研究院董超团队在HDR领域的最新力作,取得了NTIRE2021 单帧HDR竞赛第二成绩,指标仅低0.07dB,但推理速度快116倍。针对HDR重建伴随的高光区域细节重建、低光区域噪声抑制以及正常曝光区域的量化损失、噪声抑制问题,HDRUNet提出了(1) 条件网络提供空域可变调制;(2) 加权网络提供正常曝光区域信息保留...
【导读】本文是华为诺亚&北大提出的一种轻量化图像超分的方案,它结合了GhostNet中的特征融合思想,同时考虑了图像超分任务的特殊性(不能直接移除冗余特征),提出了通过shift操作来生成这类“幽灵特征”,在降低计算量、参数量、推延迟的同时确保性能不显著下降。这里所提出的GhostSR一种通用性的轻量化方案,相比剪枝等技...
本文提出一种同时利用图像空间和通道特征的 Transformer 模型,DAT(Dual Aggregation Transformer),用于图像超分辨(Super-Resolution,SR)任务。DAT 以块间和块内的双重方式,在空间和通道维度上实现特征聚合,从而具有强大的图像表示能力。具体来说,DAT 在连续的 Transformer 块中交替应用空间和通道自注意力,以...
本文聚焦于解决制约暗光算法应用的三个问题:训练集和现实暗光场景的退化特征的差异,现有的评价指标不能很好地衡量人眼感知质量,以及成对的训练集的欠缺。本文针对性地提出了三个机制以实现高效地暗光图像增强。具体来说,