最近,视觉语言模型(VLMs)如 CLIP 在视觉任务的自监督表示学习方面取得了显著成功。然而,有效地将 VLMs 应用到下游任务仍具有挑战性...
联邦学习的研究最近从卷积神经网络(CNNs)转向了视觉 Transformer (ViTs),因为 ViTs 具有更优越的能力。由于 ViTs 缺乏 CNN 固有的 ...
细小物体由于其有限的空间分辨率,往往呈现出点状分布的特点。因此,使用点级监督进行边界框预测自然且成本效益高,成为传统框级监督的...
清华大学智能产业研究院(AIR)联合地瓜机器人和求之科技,将在机器人领域旗舰会议ICRA 2025上主办第四届Sim2Real挑战赛(以下简称 "S2R...
在计算机视觉领域,目标检测技术一直是研究的热点与难点。随着应用场景的不断拓展,传统的闭集检测逐渐显露出其局限性,开放词汇检测(O...