最近对实例分割的关注集中在基于查询的模型上。尽管这些模型是无非最大值抑制(NMS)和端到端的,但在高精度实时基准测试上的优势尚未得到很好的证明。在本文中展示了基于查询的模型在高效实例分割算法设计方面的强大潜力。作者提出了FastInst,这是一个简单、有效的基于查询的实时实例分割框架。FastInst可以以实时速度...
结构化剪枝通过从神经网络中删除结构分组的参数来实现模型加速。然而,参数分组模式在不同的模型中差异很大,使得依赖于手动设计的分组方案的特定于体系结构的剪枝器无法推广到新的体系结构。在这项工作中研究了一项极具挑战性但几乎没有探索的任务,即任意结构剪枝,以解决任意架构(如CN、RNN、GNN和Transformer)的一...
今天分享下怎么用ChatGPT来做点有意思、有用的事情。要想让ChatGPT更好地回答我们的问题,需要设计一些合理的prompts。下面会分享下怎么设计prompts来让ChatGPT扮演各种角色、职业,成为我们的生活小助手。
近年来对二维姿态估计的研究在公共基准上已经取得了不错的进展,但其在工业界的应用仍存在着模型参数大和高延迟的问题。为了弥补这一差距,本文通过经验探讨了姿态估计中的关键因素,包括范式、模型架构、训练策略和部署,并提出了一个基于MMPose的高性能实时多人姿态估计框架RTMPose。RTMPose-m在英特尔i7-11700 CPU和C...
本文提出了一种新的卷积,称为动态区域感知卷积(DRConv),它可以自动将多个滤波器分配给特征具有相似表示的相应空间区域。通过这种方式,DRConv在建模语义变化方面优于标准卷积。标准卷积层可以增加文件器的数量以提取更多的视觉元素,但会导致较高的计算成本。DRConv使用可学习的指导器将增加的通道方向滤波器转移到...
自动驾驶车辆中使用的目标检测器可能具有较高的内存和计算开销。在本文中介绍了一种新的半结构化剪枝框架R-TOSS,它克服了现有模型剪枝技术的缺点。JetsonTX2上的实验结果表明,R-TOSS在YOLOv5目标检测器上的压缩率为4.4倍,推理时间加快了2.15倍,能耗降低了57.01%。R-TOSS还可以在RetinaNet上实现2.89倍的压缩,推理时...
点云3D目标检测的性能取决于有效地表示原始点、基于网格的Voxel或Pillar。最近的两阶段3D检测器通常采用point-voxel-based R-CNN范式,即,第一阶段求助于基于三维Voxel的主干,用于基于鸟瞰图(BEV)表示的3D proposal生成,第二阶段通过中间点表示对其进行细化。它们的主要机制涉及利用中间关键点从转换的BEV表示中恢...
视觉特征金字塔在广泛的应用中显示出其有效性和效率的优势。然而,现有的方法过分集中于层间特征交互,而忽略了层内特征规则,这在经验上被证明是有益的。尽管一些方法试图借助注意力机制或视觉Transformer学习紧凑的层内特征表示,但它们忽略了对密集预测任务重要的被忽略的角区域。为了解决这个问题,在本文中提出了一...
超分辨率(Super-Resolution)即通过硬件或软件的方法提高原有图像的分辨率,图像超分辨率是计算机视觉和图像处理领域一个非常重要的研究问题,在医疗图像分析、生物特征识别、视频监控与安全等实际场景中有着广泛的应用
模板跟踪是一项任务,涉及识别模板的位置和类别,然后为视频流中的检测分配唯一ID。跟踪器的输出与添加了模板ID的检测相同。
特斯拉的摄像头视野可以覆盖车身周围360°,在前向有120°鱼眼、长焦镜头用于加强观测,布局如上图。
道路目标检测是自动驾驶技术中的一个重要分支,检测精度越高的模型越有利于车辆的安全驾 驶。在道路目标检测中,小目标和遮挡目标的漏检是一个重要的难题,降低目标的漏检率对于安全驾驶具有重要意义。在本文的工作中,基于 YOLOX 目标检测算法进行改进,提出了 DecIoU 边界框回归损失函数来提高预测框和真实框的形状一...
本文提出了一种基于最先进YOLO框架的高效、低复杂度和Anchor-Free的目标检测器,该检测器可以在边缘计算平台上实时实现。本文开发了一种增强的数据增强方法,以有效抑制训练过程中的过拟合问题,并设计了一种混合随机损失函数,以提高小目标的检测精度。受FCOS的启发,提出了一种更轻、更有效的Decoupled-Head,其推理速...
在MEET2023智能未来大会上,阿里巴巴集团副总裁、阿里云计算平台事业部负责人贾扬清给出了他的答案:AI工程化和开源。
饲养密度是影响畜禽大规模生产和动物福利的关键因素。然而,麻鸭养殖业目前使用的人工计数方法效率低、人工成本高、精度低,而且容易重复计数和遗漏。在这方面,本文使用深度学习算法来实现对密集麻鸭群数量的实时监测,并促进智能农业产业的发展。本文构建了一个新的大规模大麻鸭目标检测图像数据集,其中包含1500个大...
人体姿态估计(HPE)是计算机视觉中的一项经典任务,它主要通过识别人的关节的位置来表示人的方向。HPE可以用来理解和分析人类的几何和运动相关信息。Newell等人在Mask3D中提出的堆叠沙漏架构是第一个基于深度学习的HPE方法之一,因为经典方法在此之前主导了HPE文献。
3D检测器的部署是现实世界自动驾驶场景中的主要挑战之一。现有的基于BEV(即鸟瞰图)的检测器支持稀疏卷积(称为SPConv),以加快训练和推理,这为部署(尤其是在设备上应用)带来了困难。在本文中解决了从LiDAR点云中高效检测3D目标的问题,并考虑了部署。为了减少计算负担提出了一种从行业角度来看具有高性能的基于Pil...
基于Transformer的方法推进了在学术界和工业界多摄像机3D检测的最新发展。在一个普通的Transformer架构中,query是对整个数据集进行随机初始化和优化的,而不考虑输入帧之间的差异。在这项工作中建议利用来自图像模型的预测,这通常是高度优化的2D任务,作为一个3D检测网络的Transformer部分之前。该方法为用2D先验增强...
作为一种通用的模型压缩范式,基于特征的知识蒸馏允许学生模型从教师模型中学习表达特征。在本文中主要致力于设计一个有效的特征提取框架,并提出了一种用于目标检测的空间通道自适应Mask提取(AMD)网络。更具体地说,为了准确地重构重要特征区域,首先在学生网络的特征图上执行注意力引导的特征Mask,以便可以通过空间...
LVGL的刚刚完成了对LVGL8的维护更新,发布了v8.3.5版。相对master分支上正在开发的LVGL9,该版本是一个吐血推荐的稳定版本: