计算机视觉下最新的文章 - 极术社区 - 连接开发者与智能计算生态

计算机视觉

人工智能细分领域

关注标签

关注数

5

内容数

941

提问题写文章

标签主页标签问答标签文章

相关标签

标签文章

最新的 · 最热的

Happy · 3月11日

英伟达提出首个 Mamba-Transformer 视觉骨干网络！打破精度/吞吐瓶颈

【新智元导读】CVPR 2025，混合新架构 MambaVision 来了！Mamba+Transformer 混合架构专门为 CV 应用设计。MambaVision 在 Top-1 精度和...

10 阅读 1.3k
爱笑的小姐姐 · 3月6日

革新文本-图像检索，视觉 Prompt 预测+轻量训练性能超 BLIP2

本文的目标是提升文本到图像检索的性能。为此，作者提出了一种新的框架，该框架能够提升大规模预训练视觉语言模型的表现，使其能够用于...

1 阅读 1.2k
爱笑的小姐姐 · 3月4日

ViT架构革新，Jumbo增强CLS Token，小模型性能涨13.5%，跨模态推理高效无损

作者提出了一种对全局处理视觉Transformer（ViT）的简单增强方法，以在保持吞吐量的同时提高准确性。ViT+Jumbo创建了一个更宽的CLS Toke...

0 阅读 1.5k
爱笑的小姐姐 · 2月17日

基于 Yolact 的检测优化，训练优化不损推理效率，解决边缘模糊问题！

确保自主驾驶列车在铁路表面的障碍物避免至关重要，其第一步是分割铁路区域。作者选择在 Yolact 的基础上进行工作。为了解决模型预测的...

0 阅读 938
爱笑的小姐姐 · 2月10日

LLM 与 BiomedCLIP 携手提升图像 Prompt 学习的准确性与泛化性 !

最近，视觉语言模型（VLMs）如 CLIP 在视觉任务的自监督表示学习方面取得了显著成功。然而，有效地将 VLMs 应用到下游任务仍具有挑战性...

0 阅读 909
爱笑的小姐姐 · 1月21日

EFTViT: 在资源受限的边缘设备上对带遮罩图像的视觉变换器的高效联合训练！

联邦学习的研究最近从卷积神经网络（CNNs）转向了视觉 Transformer （ViTs），因为 ViTs 具有更优越的能力。由于 ViTs 缺乏 CNN 固有的 ...

2 阅读 692
爱笑的小姐姐 · 1月17日

武大提出 Point Teacher，两阶段去噪，让小物体点标注检测更可靠！

细小物体由于其有限的空间分辨率，往往呈现出点状分布的特点。因此，使用点级监督进行边界框预测自然且成本效益高，成为传统框级监督的...

0 阅读 1k
地瓜机器人 · 1月14日

探索具身智能边界，地瓜机器人邀你共战ICRA 2025 Sim2Real挑战赛

清华大学智能产业研究院（AIR）联合地瓜机器人和求之科技，将在机器人领域旗舰会议ICRA 2025上主办第四届Sim2Real挑战赛（以下简称 "S2R...

0 阅读 913
地瓜机器人 · 1月13日

开放词汇检测新晋SOTA：DOSOD实时检测算法详解

在计算机视觉领域，目标检测技术一直是研究的热点与难点。随着应用场景的不断拓展，传统的闭集检测逐渐显露出其局限性，开放词汇检测（O...

0 阅读 844
超神经HyperAI · 1月9日

从计算机视觉走向医疗AI，对话上海交大谢伟迪：定义问题比解决问题更重要

2012 年，在传说中的「末日之年」，移动互联网迎来了爆发期。随着 3G 网络的普及、智能手机价格下探，加之微信、米聊为代表的类通信应用...

1 阅读 489
爱笑的小姐姐 · 1月3日

突破无配对难题，N2D3 助力夜间图像日间化！

夜间到日间翻译（Night2Day）旨在实现夜间场景的日间视觉。然而，在无配对条件下处理具有复杂降质的夜间图像仍然是一个重大的挑战。之前...

0 阅读 859
V · 1月2日

分布匹配蒸馏：扩散模型的单步生成优化方法研究

扩散模型在生成高质量图像领域具有显著优势，但其迭代去噪过程导致计算开销较大。分布匹配蒸馏（Distribution Matching Distillation，D...

0 阅读 605
爱笑的小姐姐 · 2024年12月18日

实时 4K 图像修复：TSFormer 以 3.38M 参数达 40fps 高性能，推动技术落地

超高分辨率（UHD）图像修复对于需要出色视觉保真度的应用至关重要，然而现有方法往往在修复质量和效率之间存在权衡，限制了其实际部署。...

0 阅读 1.1k
爱笑的小姐姐 · 2024年12月13日

视觉 Transformer 与目标检测的完美融合：解读 ViTOC 架构 !

本文提出 ViTOC（视觉 Transformer 和目标感知描述生成器），一种用于图像描述的视觉语言模型，可解决生成描述的准确性和多样性的挑战。...

0 阅读 1k
爱笑的小姐姐 · 2024年12月10日

预训练视觉 Transformer （ViT）的核心：特征表示还是注意力模式？

传统智慧认为，预训练视觉 Transformer （ViT）通过学习有用的表示可以提高下游性能。这是否真的如此？作者对此进行了调查，发现预训练...

0 阅读 727
爱笑的小姐姐 · 2024年12月05日

精确修正 ViT，针对视觉 Transformer 预测错误的纠正策略！

模型编辑旨在数据高效地纠正大型预训练模型的预测错误，同时确保对相邻故障的泛化以及对局部性的关注，以最大限度地减小对无关示例的意...

6 阅读 841
爱笑的小姐姐 · 2024年11月12日

复旦提出CTA-Net |卷积与Transformer的协同，通过轻量级多尺度特征融合提升视觉识别！

卷积神经网络（CNNs）和视觉 Transformer （ViTs）已成为计算机视觉领域中局部和全局特征提取的必备工具。然而，将这两种架构聚合到现有...

0 阅读 2.1k
爱笑的小姐姐 · 2024年10月09日

FMRFT 融合Mamba和 DETR 用于查询时间序列交叉鱼跟踪 !

鱼的生长、异常行为和疾病可以通过图像处理方法进行早期检测，这对工厂水产养殖具有重要意义。然而，水下反射和某些鱼类因素（如高相似...

0 阅读 831
地瓜机器人 · 2024年09月09日

地瓜直播间 | 基于X5平台智能双目深度算法详解

你是否曾经好奇过，机器是如何像人类一样通过双眼来感知三维世界的？双目深度感知技术，是一种模拟人类双眼视觉的高级技术，通过两个摄...

2 阅读 1.2k
AI学习者 · 2024年09月02日

SimD：自适应相似度距离策略提升微小目标检测性能！

微小目标检测成为计算机视觉中最具挑战性的任务之一，这是由于物体尺寸有限和信息不足所致。标签分配策略是影响目标检测准确性的关键因...

1 阅读 1.3k

上一页
1
2
3
4
5
…
下一页

本月贡献榜

AI学习者

贡献 5 声望

极术微信服务号

关注极术微信号
实时接收点赞提醒和评论通知

安谋科技学堂公众号

关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源

安谋科技招聘公众号

关注安谋科技招聘
实时获取安谋科技中国职位信息