《聚焦 Arm 性能提升,助力龙蜥生态落地应用》是「龙蜥社区“走进系列”MeetUp」的第 6 期线下活动。本期龙蜥社区走进 Arm,为大家带来龙蜥生态中 Arm®NeoverseTM平台迁移、优化实例以及成功经验分享。
3D车道检测是自动驾驶中的一项基本但具有挑战性的任务。最近的进展主要依赖于结构化的3D替代方法,这些方法是从前视图图像特征和摄像机参数构建的。然而,Monocular图像中的深度歧义不可避免地导致了构建的替代特征图与原始图像之间的不对齐,对准确的车道检测构成了巨大挑战。为了解决上述问题,作者提出了一种新颖的LA...
Transformer模型已经在计算机视觉领域迅速赢得了广泛关注,尤其是在目标识别和检测领域。在调研了最先进的目标检测方法的结果后,作者注意到,在几乎每个视频或图像数据集中,Transformer模型几乎都优于成熟的基于CNN的检测器。虽然Transformer模型在小目标检测(SOD)技术方面仍然处于领先地位,但本文旨在探讨如此强大...
多目标跟踪(Multi-Object Tracking,MOT)是计算机视觉领域中一项关键任务,旨在同时预测目标的边界框和身份。尽管最先进的方法通过共同优化检测和ReID特征学习的多任务问题取得了显著进展,但鲜有方法探索如何解决遮挡问题,这是MOT领域长期存在的挑战之一。通常,被遮挡的目标可能会妨碍检测器估计边界框,导致轨迹出...
多模态大型语言模型通过一个两阶段的训练过程获取其遵循指令的能力:在图像文本对上进行预训练,然后在监督视觉语言指令数据上进行微调。最近的研究表明,即使只有有限数量的高质量遵循指令的数据,大型语言模型也可以获得令人满意的结果。在本文中介绍了InstructionGPT-4,它是在仅包含200个示例的小型数据集上进行微调...
Vision Transformer(ViT)在各种视觉任务中取得了令人印象深刻的成功。然而,它的计算成本很高,随着Token序列长度的增加呈二次增长,这在处理大型特征图时大大限制了其性能。为了减轻计算成本,先前的研究依赖于要么限制在局部小区域内的细粒度Self-Attention,要么采用全局Self-Attention,但要缩短序列长度,从而导...
本论文提出了一种使用单目摄像头图像进行深度估计的目标检测器。之前的检测研究通常集中在检测具有2D或3D边界框的对象上。3D边界框由中心点、尺寸参数和朝向信息组成。然而,预测复杂的输出组合通常会导致模型的性能较低,并且对于自动驾驶的风险评估来说并不是必要的。本文专注于预测每个目标的单一深度,这对于自动驾...
8月23日,由电子发烧友网主办的“智向远大,能者千面”第七届人工智能大会将在深圳会展中心举办。行业顶尖专家、学者和企业代表等将共同探索业界难题,寻找人工智能产业发展新机遇!
神经网络量化旨在通过使用低位近似加速和修剪全精度神经网络模型。采用量化感知训练(QAT)范式的方法最近有了快速增长,但往往在概念上较为复杂。本文提出了一种新颖而高效的QAT方法,即量化特征蒸馏(QFD)。QFD首先将量化(或二值化)表示作为教师进行训练,然后使用知识蒸馏(KD)对网络进行量化。定量结果表明,QFD...
基于DeepPCB这个公开数据集,总计有1500份的模板-缺陷图像数据对,总计图像3000张,对应text格式的1500个标注文本描述文件。包含PCB主要的六个类别错误,分别是:
8月16日,由深度学习技术及应用国家工程研究中心主办、百度飞桨和文心大模型承办的 Wave Summit 2023深度学习开发者大会在北京举行。本次大会上,安谋科技(中国)有限公司(以下简称“安谋科技”)与百度正式宣布双方将联合发起飞桨+文心大模型硬件生态共创计划,共同推进在安谋科技硬件上与飞桨+文心大模型的深度适配,...
最近,SAM向通用人工智能迈出了重要的一步。同时,它的可靠性和公平性也引起了人们的极大关注,尤其是在医疗保健领域。在这项研究中,作者提出了SAM线索的 Multi-box 即时触发不确定性估计,以证明分割病变或组织的可靠性。作者使用具有先验分布参数的蒙特卡罗来估计SAM预测的分布,使用不同的prompt作为测试时间增加的...
在本研究中,重点分析了YOLOv5模型的结构问题。基于人造革细微缺陷的特点,设计了四种创新结构,分别是DFP、IFF、AMP和EOS。这些改进使得提出了一个名为YOLOD的高性能人造革细微缺陷检测模型。YOLOD在人造革缺陷数据集上表现出色,相比于YOLOv5,提高了11.7% - 13.5%,错误检测率显著降低了5.2% - 7.2%。此外,YOLOD在通...
多目标跟踪(MOT)旨在在帧间检测和关联所有所需的目标。大多数方法通过明确或隐式地利用强大的线索(即空间和外观信息)来完成任务,这些线索表现出强大的实例级别判别能力。然而,当出现目标遮挡和聚类时,由于目标之间的高度重叠,空间和外观信息同时变得模糊不清。在本文中,作者证明MOT中这个长期以来的挑战可以通...
但是最后看了好多篇前辈们的文章后,仿佛懂了,但是总感觉不得劲。最后发现前辈的大多数内容都是很局部的,这不是因为前辈们的能力,只是因为前辈想尽量用简短的文字去描述一些知识。
极术读书是极术社区推出的读书栏目。极术读书专栏定期推荐嵌入式,人工智能,物联网,云计算,安全,半导体等智能计算领域的图书及技术管理类图书,同时策划社区赠书活动和作者webinar方便读者交流互动,欢迎关注极术读书。
在这项工作中提出了一种高效的量化感知全景驾驶感知模型(Q-YOLOP),用于自动驾驶背景下的目标检测、可驾驶区域分割和车道线分割。本文的模型使用高效层聚合网络(ELAN)作为其Backbone,并针对每个任务使用特定于任务的Head。本文采用4阶段训练过程,包括在BDD100K数据集上进行预训练,在BDD1000K和iVS数据集上微调,...
大规模视觉预训练显著提高了大型视觉模型的性能。然而,作者观察到现有的低FLOPs模型无法从大规模预训练中受益的问题。在本文中,作者提出了一种通用的设计原则,即ParameterNet,用于在大规模视觉预训练中增加更多参数的同时保持低FLOPs。例如,采用动态卷积技术可以为网络提供更多参数,同时仅略微增加FLOPs。提出的Pa...
视觉Transformer(ViTs)已经在许多计算机视觉任务中展示了最先进的性能。不幸的是,部署这些大规模的ViT是消耗资源的,并且对于许多移动设备来说是不可能的。虽然社区中的大多数人都在为越来越大的ViT进行构建,但作者提出了一个完全相反的问题:在准确性和推理延迟的权衡范围内,ViT能有多小,才能适合移动部署?作者...
最近,U-shaped网络由于其简单且易于调整的结构而在医学图像分割领域占据主导地位。然而,现有的U-shaped分割网络:大多侧重于设计复杂的自注意力模块,以弥补基于卷积运算的远距离依赖性的不足,这增加了网络的总体参数数量和计算复杂度;简单地融合编码器和解码器的特征,忽略它们的空间位置之间的联系。在本文中,作...