Happy 头像

Happy

2895 声望
公众号:AIWalker 展开

公众号:AIWalker

收起
关注了
0
粉丝数
6255
IP 属地湖北
最新动态
  • 发布了文章 ·
    CPU推理1ms的SHViT Backbone 来啦

    近期,高效的视觉 Transformer 在资源受限的设备上展现出优异的低延迟性能。传统上,它们在宏观层面上采用4×4的块嵌入和4阶段结构,同时在微观层面上使用具有多头配置的复杂注意力机制。本文旨在以节省内存的方式解决所有设计层面的计算冗余问题。作者发现,使用更大步长的块状处理初始部分不仅能降低内存访问成本,还通...

    摘要图
  • 发布了文章 ·
    "羊驼"入侵CV,美团&浙大沈春华团队将LLaMA向CV扩展,构建全新基础模型VisionLLaMA

    大型语言模型构建在基于Transformer的架构之上来处理文本输入, LLaMA 系列模型在众多开源实现中脱颖而出。类似LLaMa的Transformer可以用来处理2D图像吗?在本文中,我们通过提出一种类似 LLaMA 的朴素和金字塔形式的Transformer来回答这个问题,称为 VisionLLaMA。VisionLLaMA 是一个统一的通用建模框架,用于解决大多数...

    摘要图
  • 发布了文章 ·
    ICLR2024 | 东北大学提出用于移动端的高效调制方案EfficientMod,即将开源!

    本文对现有调制记住(Modulation Mechnisam)进行了重思考,提出了一种高效调制模块(Efficient Modulation, EfficientMod)用于构建推理高效网络。受益于调制机制的突出的表达能力与高效设计理念,所提方案取得了更优的精度-效率均衡,在高效网络方面达成新的SOTA性能。当与自注意力相结合后,混合网络可以取得进一步的性能...

    摘要图
  • 发布了文章 ·
    华科王兴刚团队首次将Mamba引入ViT,更高精度、更快速度、更低显存!

    在Transformer如日中天时,一个称之为“Mamba”的架构横冲出世,在语言建模上与Transformers不相上下,具有线性复杂度,同时具有5倍的推理吞吐量!一时之间,被给予厚望“下一代架构”~

    摘要图
  • 发布了文章 ·
    语义分割新SOTA:华科与美团联合提出单分支推理分割架构SCTNet,即将开源!

    最新的实时语义分割方法通常采用额外的语义分支来追求丰富的长距离上下文。然而,额外的分支会带来不必要的计算开销,并减缓推理速度。为了消除这一困境,我们提出了SCTNet,一种带有transformer语义信息的单分支CNN用于实时分割。

    摘要图
  • 发布了文章 ·
    BFRffusion | 面向真实世界的盲人脸复原,中山大学提出全新盲人脸复原基准数据集

    人脸盲复原是计算机视觉领域的一个重要课题,由于其广泛的应用而受到人们的广泛关注。在这项工作中,我们深入研究了利用预训练的稳定扩散进行盲脸恢复的潜力,

    摘要图
  • 发布了文章 ·
    通用检测大模型 | 华科白翔团队提出以对象为中心的基础模型GLEE

    通过一个统一的框架,GLEE可以在开放世界场景中完成任意物体的检测、分割、跟踪、接地和识别,以完成各种物体感知任务。

    摘要图
  • 发布了文章 ·
    端侧显著性检测新高度,OPPO提出面向真实场景的PSUNet

    在高分辨率场景下,现有的显著目标检测方法难以同时满足快速推理和准确结果的要求。它们受到用于高分辨率图像的公共数据集和高效网络模块的质量的限制。

    摘要图
  • 发布了文章 ·
    38.7fps!EdgeSAM = RepViT + SAM,移动端超强变种,已开源!

    对于 2023 年的计算机视觉领域来说,「分割一切」(Segment Anything Model)是备受关注的一项研究进展。尽管SAM具有各种优势,但速度慢是其不得不提的一个缺点,端侧根本就跑不动。研究者们也提出了一些改进策略:将默认 ViT-H 图像编码器中的知识提炼到一个微小的 ViT 图像编码器中,或者使用基于 CNN 的实时架构降低...

    摘要图
  • 发布了文章 ·
    FAIR十年之路:以开放研究促进人工智能前沿SOTA

    在过去的10年里,人工智能领域经历了深刻的变革,在这一切中,FAIR一直是许多人工智能研究突破的来源,也是以开放和负责任的方式进行研究的灯塔。

    摘要图
  • 发布了文章 ·
    将卷积与自注意力进行高效集成,上交与华为海思提出了Xvolution

    上交&华为海思提出了新的“卷王”Xvolution:它对卷积与自注意力进行了统一集成,同时利用了卷积的局部特征提取能力与自注意力的全局建模能力。更重要的是,它通过结构重参数化思想将训练与推理进行了解耦:在训练阶段采用多分支结构进行训练,在推理阶段等价转换为单一动态卷积形式。

    摘要图
  • 发布了文章 ·
    超分画质大模型!华为和清华联合提出CoSeR:基于认知的万物超分大模型

    项目主页:[链接]论文:[链接]代码:[链接]图1.  LR,GR和SR分别为低清图像、基于对低清图像的认知生成的参考图像和超分图像。图像超分辨率技术旨在将低分辨率图像转换为高分辨率图像,从而提高图像的清晰度和细节真实性。这项技术在手机拍照等领域有着广泛的应用和需求。随着超分技术的发展和手机硬件性能的提升,人们...

    摘要图
  • 发布了文章 ·
    TPSeNCE开源,让CV图像变换到雨天/雪天/夜晚都不是大问题

    雨生成算法有可能改进在雨天条件下的图像泛化能力和场景理解。然而,在实践中,它们会产生瑕疵和失真,并且由于缺乏适当的约束而难以控制生成的雨量。在这篇文章中提出了一种非配对图像到图像翻译框架,用于生成现实的雨天图像。作者首先引入一个三角形概率相似性(TPS)约束来指导生成的图像朝向清晰和雨天图像在鉴别器...

    摘要图
  • 发布了文章 ·
    SBCFormer | 为树莓派而设计,1fps + 80.0%

    计算机视觉在不同领域解决已成为解决实际问题的常用方法,如智慧农牧管理。这类场景并不需要每秒处理许多帧,此时树莓派这类单板主机就派上了用场。

    摘要图
  • 发布了文章 ·
    TinyFormer | 300KB模型超越MobileNetv2,让LayerNorm提速50倍

    在各种嵌入式物联网应用中,在微控制器单元(MCU)上开发深度学习模型引起了广泛关注。然而,由于硬件资源限制严重,如何在微控制器上高效地设计和部署最新先进模型(例如,Transformer)具有很大挑战。在本文中,作者提出了 TinyFormer,一个专门为在 MCU 上开发和部署资源高效的Transformer而设计的框架。TinyFormer ...

    摘要图
  • 发布了文章 ·
    HDRUNet | 深圳先进院董超团队提出带降噪与反量化功能的单帧HDR重建算法

    本文是深圳先进技术研究院董超团队在HDR领域的最新力作,取得了NTIRE2021 单帧HDR竞赛第二成绩,指标仅低0.07dB,但推理速度快116倍。针对HDR重建伴随的高光区域细节重建、低光区域噪声抑制以及正常曝光区域的量化损失、噪声抑制问题,HDRUNet提出了(1) 条件网络提供空域可变调制;(2) 加权网络提供正常曝光区域信息保留...

    摘要图
  • 发布了文章 ·
    GhostSR|针对图像超分的特征冗余,华为诺亚&北大联合提出GhostSR

    【导读】本文是华为诺亚&北大提出的一种轻量化图像超分的方案,它结合了GhostNet中的特征融合思想,同时考虑了图像超分任务的特殊性(不能直接移除冗余特征),提出了通过shift操作来生成这类“幽灵特征”,在降低计算量、参数量、推延迟的同时确保性能不显著下降。这里所提出的GhostSR一种通用性的轻量化方案,相比剪枝等技...

    摘要图
  • 发布了文章 ·
    ICCV 2023 | 利用双重聚合的Transformer进行图像超分辨率

    本文提出一种同时利用图像空间和通道特征的 Transformer 模型,DAT(Dual Aggregation Transformer),用于图像超分辨(Super-Resolution,SR)任务。DAT 以块间和块内的双重方式,在空间和通道维度上实现特征聚合,从而具有强大的图像表示能力。具体来说,DAT 在连续的 Transformer 块中交替应用空间和通道自注意力,以...

    摘要图
  • 发布了文章 ·
    ICCV2023 | 将隐式神经表征用于低光增强,北大张健团队提出NeRCo

    本文聚焦于解决制约暗光算法应用的三个问题:训练集和现实暗光场景的退化特征的差异,现有的评价指标不能很好地衡量人眼感知质量,以及成对的训练集的欠缺。本文针对性地提出了三个机制以实现高效地暗光图像增强。具体来说,

    摘要图
  • 发布了文章 ·
    NTIRE2023-RTSR-Track2 冠军方案详解

    本文了一个实时&轻量图像超分方案Bicubic++,它通过下采样模块降低图像分辨率以减少计算量,在网络尾部采用X6上采样进行图像重建,同时还构建了一个三阶段训练方案。在测试集上, 所提方案比Bicubic指标高~1dB,同时推理速度~1.17ms@RTX3090、2.9ms@RTX3070 (注:fp16精度,720p输入,4K输出)。此外,Bicubic++取得了NTR...

    摘要图
认证与成就
获得 163 次点赞
2020年01月15日 加入
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息