1. 微小目标检测的精度与效率平衡问题:在复杂环境中,精确检测微小物体至关重要,但单纯放大图像会显著增加计算成本和负样本数量,严重...
Query生成不足:现有基于Transformer的检测方法在生成Query时未能充分利用位置、类别和边界框信息,导致在有限数据集上训练时性能欠佳。
在当今科技飞速发展的时代,边缘计算和人工智能的融合正推动着众多领域的创新变革。而在这一进程中,硬件平台的性能起着至关重要的作用...
红外图像检测中存在复杂背景、低信噪比、小目标尺寸和弱亮度等问题,导致传统方法难以准确检测红外小目标。
特征错位问题:传统 FPN 类范式在多尺度检测中通过逐点融合不同层级的特征图,容易导致特征错位问题,从而影响模型性能。
研究主要集中在多模态语义分割(MMSS)领域,其中像素级预测是通过由不同传感器捕获的多个视觉模态得出的。最近,大型视觉模型Segment A...
项目开源地址 [链接]cpu/gpu推理:ncnnnpu推理:cix-noe cppusb摄像头、http串流:opencv-mobileusb摄像头型号:m5stack AtomS3R-CAM完...
文章原名【“星睿O6”AI PC开发套件评测】Ultra Fast Lane Detection V2 NPU部署
标题精简了,原标题是【“星睿O6”AI PC开发套件评测】RVM人像分割torch➡️pnnx➡️cix量化➡️o6-NPU和ncnn-CPU/GPU部署全过程
在OBS(Open Broadcaster Software)直播中,添加时钟到直播画面是一个非常实用的功能,特别是对于需要展示实时时间信息的教学、会议、...
在OBS绿幕直播中,遇到绿色物体被抠透明的问题,无疑是许多主播和直播运营者常常面临的困扰。这一问题不仅影响了直播的专业性,还可能让...
在 AI 驱动的医疗影像管理领域,医疗图像重识别 (MedReID) 作为一项关键技术,旨在自动关联来自不同模态、不同时间的患者影像数据,进而...
大型视觉-语言模型(LVLMs)通常遵循两阶段训练范式——预训练和监督微调。最近,从语言领域衍生出的偏好优化已成为一种有效的后训练强化...
论文名:TurboFill: Adapting Few-step Text-to-image Model for Fast Image Inpainting论文链接:[链接]开源代码:[链接]
【“星睿O6”AI PC开发套件评测】三套OpenCV性能测试,OpenCL加速测试,KleidiCV加速测试,JPG硬件编码加速测试
就在 DeepSeek-V3 更新的同一夜,阿里通义千问 Qwen 又双叒叕一次梦幻联动了——发布Qwen2.5-VL-32B-Instruct。此前开源家族视觉语言模型 ...
中国科学技术大学、华为诺亚实验室、港科大、清华大学等单位 联合提出了一种超快速的任意尺度超分方法,ContinuousSR。
亮点直击为 LLIE 任务引入了一种新的全球首个可训练的颜色空间,该空间由极化的 HS 和可训练的强度唯一定义。这提供了一个有效工具,消...
扩散模型在生成高度复杂图像分布方面表现出强大的图像生成能力,可作为图像恢复的有力先验。现有方法常利用 ControNet 等技术,以低质量...
【新智元导读】CVPR 2025,混合新架构 MambaVision 来了!Mamba+Transformer 混合架构专门为 CV 应用设计。MambaVision 在 Top-1 精度和...