CVPR 2024 | NVIDIA 在 CVPR 上通过最大室内合成数据集推进物理 AI 的发展 - 极术社区

在一年一度的 AI 城市挑战赛中，来自世界各地的数百支参赛队伍在 NVIDIA Omniverse 生成的基于物理学的数据集上测试了他们的 AI 模型。

NVIDIA 为国际计算机视觉与模式识别会议（CVPR）中的年度 AI 城市挑战赛提供了有史以来最大的室内合成数据集，帮助研究人员和开发者推进智慧城市和工业自动化解决方案的开发工作。

这项挑战赛吸引了来自近 50 个国家的 700 多支队伍参赛，参赛者的任务是开发 AI 模型，以提高物理环境（如零售和仓库环境）和智能交通系统的运营效率。

参赛队伍在由 NVIDIA Omniverse 生成的数据集上测试了模型。NVIDIA Omniverse 是一个由应用编程接口（API）和软件开发套件（SDK）组成的平台，能够帮助开发者构建基于通用场景描述（OpenUSD）的应用和工作流。

创建和仿真大型空间的数字孪生

工厂、仓库等大型室内空间每天都会有源源不断的人员和小型车辆，并且在未来还将出现自主机器人。开发者需要那些能够在复杂的大型环境中观测活动、提高运营效率，并把人员安全放在第一位的解决方案。

研究人员正在使用能够感知和理解物理世界的计算机视觉模型来满足这一需求。该方法适用于多摄像头追踪等应用，其可以在特定环境中由一个模型追踪多个实体。

为了确保准确性，模型必须针对各种现实场景，在大型真实的数据集上进行训练，但这些数据的采集过程可能十分困难、耗时且成本高昂。

因此，AI 研究人员开始使用基于物理学的仿真（例如物理世界的数字孪生等），来加强 AI 仿真和训练。此类虚拟环境有助于生成用于训练 AI 模型的合成数据，同时，仿真也是一种既能在安全环境中运行多种“假设”场景，又能解决隐私和 AI 偏见问题的方式。

创建合成数据能够获得大量可扩展和可扩充的数据，这对于 AI 训练十分重要。团队可以改变照明、物体位置、纹理、颜色等诸多参数，来生成一个多样化的训练数据集。

为 AI 城市挑战赛构建合成数据集

今年的 AI 城市挑战赛由五项计算机视觉比赛组成，涵盖了交通管理、工作者安全等领域。

NVIDIA 为第一项比赛——“多摄像头人员追踪”提供了数据集。这项比赛的参与度最高，共有 400 多个队伍参赛。赛事使用了一个基准数据集和一个同类中最大的室内合成数据集（包含 212 小时每秒 30 帧的 1080p 视频，涵盖 6 个虚拟环境中的 90 个场景，这些场景包括仓库、零售店和医院等）。

这些场景均在 Omniverse 中创建而成，仿真了近 1000 台摄像机，并使用了约 2500 个数字人角色。这项比赛还让研究人员了解到如何根据所需要的结果来生成适当大小和保真度的数据。

这些基准数据使用 NVIDIA Isaac Sim 中的 Omniverse Replicator 创建而成。NVIDIA Isaac Sim 是一款参考应用，借助它，开发者能够在基于 NVIDIA Omniverse 构建的物理仿真环境中设计、仿真和训练适用于机器人、智能空间或自主机器的 AI。

Omniverse Replicator 是一个用于构建合成数据生成管线的 SDK，它能够自动完成高质量合成数据生成所涉及的许多手动任务，包括域随机化、摄像头放置和校准、角色移动、数据语义标注以及基准测试的基准事实等。共有十家机构和组织在本届 AI 城市挑战赛中与 NVIDIA 合作：

澳大利亚国立大学（澳大利亚）
阿联酋移动研究中心（阿联酋）
印度理工学院坎普尔分校（印度）
爱荷华州立大学（美国）
约翰霍普金斯大学（美国）
国立阳明交通大学（中国台湾）
圣塔克拉拉大学（美国）
阿联酋大学（阿联酋）
纽约州立大学奥尔巴尼分校（美国）
Woven by Toyota（日本）

推动生成式物理 AI 的未来

世界各地的研究人员和企业正在开发由物理 AI 赋能的基础设施自动化系统与机器人，这些模型能够理解指令，并在现实世界中自主执行复杂的任务。

生成式物理 AI 利用强化学习，在仿真环境中通过准确仿真的传感器来感知世界、按照物理定律执行动作，并根据接收到的反馈推理下一组动作。

开发者可以使用开发者 SDK 和 API（例如包含多摄像头追踪参考工作流的 NVIDIA Metropolis 开发者堆栈等）为工厂、仓库和零售业务添加增强感知功能。最新版本的 NVIDIA Isaac Sim 使开发者能够在实际部署之前，先在基于物理学的虚拟空间中仿真和训练 AI 机器人，从而为机器人工作流提供超强助力。

研究人员和开发者还将基于物理学的高保真仿真与先进 AI 相结合，以弥合仿真训练与实际应用之间的差距。这有助于确保合成训练环境与实际情况相吻合，从而更无缝地实现机器人部署。

NVIDIA 最近发布的 NVIDIA Omniverse Cloud Sensor RTX 进一步提高了仿真的准确性和规模。这套全新的微服务能够实现物理级精确传感器仿真，从而加速全自主机器的开发工作。

凭借这项技术，工厂、车辆、机器人等自主系统将能够采集到有效感知、适应现实世界，并与之交互所必需的数据。开发者可以使用这些微服务，在逼真的虚拟环境中对传感器的感知能力进行大规模测试，这将大大减少与现实世界测试相关的时间和成本。

Omniverse Cloud Sensor RTX 微服务将于今年晚些时候提供。您可以申请抢先体验：

https://developer.nvidia.com/...

展示先进的 AI 研究成果

参赛者们为 AI 城市挑战赛提交了研究论文，一些论文获得了最高排名，其中包括：

用于离线多摄像头人物追踪的重叠抑制聚类：本文介绍了一种追踪方法，包括识别单个摄像头视图中的个体、选择清晰的图像以便于识别、对相似外观进行分组，以及在具有挑战性的情况下帮助辨明身份。
具有几何一致性和状态感知的 Re-ID 校正的强大在线多摄像头人体追踪系统：这项研究提出了一种使用几何和外观数据来提高追踪准确性的新系统，并包括一种调整识别特征以修正追踪错误的机制。
增强在线多摄像头人物追踪的集群自细化：这篇研究论文解决了在线追踪面临的具体挑战，例如劣质数据的存储和身份分配错误。

所有被接受的论文将在 6 月 17 日举行的 2024 年 AI 城市挑战赛研讨会上发表：
https://cvpr.thecvf.com/virtu...

NVIDIA Research 将在 CVPR 2024 上发表 50 多篇论文，介绍生成式物理 AI 的突破，以及在自动驾驶汽车开发和机器人等领域的潜在应用。

使用 NVIDIA Omniverse 平台生成合成数据或环境数字孪生以进行模型仿真、测试和验证的论文包括：

FoundationPose：统一的 6D 姿态估计和新物体跟踪：FoundationPose 是一种用于估计并追踪物体 3D 位置和方向的多功能模型。该模型通过使用少量参考图像或 3D 表示来准确地理解物体的形状。

构建未知铰接物体数字孪生的隐式神经表示：该研究论文介绍了一种根据两个 3D 扫描图像创建物体数字模型的方法，该方法可通过分析活动部件的连接方式和在不同位置之间的移动方式来提高准确性。

BEHAVIOR 视觉套件：通过仿真生成可定制数据集：BEHAVIOR 视觉套件可生成适用于计算机视觉研究的可定制合成数据，使研究人员能够调整照明、物体放置等设置。

在 CVPR 上阅读有关 NVIDIA Research 的更多信息：

https://www.nvidia.com/en-us/...

了解有关 AI 城市挑战赛的更多信息：

https://www.aicitychallenge.org/

免费下载标准许可证即可使用 NVIDIA Omniverse、访问 OpenUSD 资源并了解 Omniverse Enterprise 如何连接您的团队：

https://www.nvidia.com/en-us/...

更多信息，请加入论坛中的 Omniverse 社区：

https://www.nvidia.com/en-us/...

CVPR 2024 | NVIDIA 在 CVPR 上通过最大室内合成数据集推进物理 AI 的发展

推荐阅读

NVIDIA英伟达嵌入式系统

目录