其他优胜作品包括 AI 驱动的虚拟试衣应用和一款能够寻找遗失物品的机器人等。
YouTube 机器人技术主播 Dave Niewinski 开发的机器人五花八门,从可驾驶的“La-Z-Boy”椅子到由 AI 引导的扔沙包机器人、马车比赛机器人等。
他最近的交互式电子动画 GLaDOS 项目成为了 Hackster AI 创新挑战赛的九个优胜作品之一。约 100 名参赛者通过创建开源项目、推动 AI 在边缘计算、机器人和物联网领域的应用,来角逐由 NVIDIA 与 Sparkfun 提供的奖品。
Niewinski 根据视频游戏开发商 Valve 的第一人称解谜系列游戏《传送门》(Portal)中的 GLaDOS 向导,设计出了一个创新机器人,该机器人赢得了生成式 AI 应用组第一名。
另两位优胜者 Andrei Ciobanu 和 Allen Tao 分别获得了边缘生成式 AI 模型和边缘 AI 应用组的一等奖。Ciobanu 利用生成式 AI 帮助实现虚拟试衣,而 Tao 所开发的基于 ROS 的机器人可通过绘制家庭内部地图来帮助寻找物品。
将 LLM 应用于机器人
Niewinski 在其位于加拿大安大略省滑铁卢的 Armoury Labs 开发定制化的机器人应用。他使用 NVIDIA Jetson 平台开发边缘 AI 和机器人技术,并根据自己的经验创建开源教程和 YouTube 视频。
为了给自己配备一名实验室私人助理,他制作了一个自己的 GLaDOS 交互机器人。该机器人使用基于 Transformer 的语音识别、文本转语音和大语言模型(LLM)处理查询,这些功能与模型均在 NVIDIA Jetson AGX Orin 上运行,可与机械臂和摄像头进行交互。
GLaDOS 可以追踪 Niewinski 在实验室中的行踪,能够朝不同的方向移动来面对他,并对询问作出快速反应。
Niewinski 表示:“我喜欢用机器人做一些出乎人们意料的事情。”
他希望这个助手的声音能像《传送门》中的原版 GLaDOS 一样,并且能够迅速作出反应。幸运的是,游戏公司 Valve 把《传送门》和《传送门 2》中的所有语音台词都放在了自己的网站上,Niewinski 可以下载该音频来训练模型。
他提到:“使用 Jetson 的话,一般的问答语音都能快速运行。”
Niewinski 利用 NVIDIA 的开源 NeMo 套件对 GLaDOS 的语音进行了微调,训练出一个名为 FastPitch 的频谱生成器网络和一个名为 HiFiGAN 的声码器网络来提高音频质量。
这两个网络都被部署到搭载 NVIDIA Riva 的 Orin 上,将语音识别与合成功能的运行速度优化到数倍于语音的实时速度,使其能够与 LLM 同步运行并保持流畅的交互传输。
为了让 GLaDOS 生成符合现实的回答,Niewinski 使用了一个名为 OpenChat 的本地托管 LLM,该模型在 Docker 中运行,来自 jetson-containers。所有这些 AI 都在 Jetson 模块上运行,使用的是由 CUDA 和 JetPack 构建的最新开源 ML 软件堆栈。
为了让 GLaDOS 能够移动,Niewinski 专门为宇树科技 Z1 机械臂开发了交互功能。GLaDOS 可以通过一个立体摄像头和多个模型来观察和追踪人类语言,其机械臂周围装上了 3D 打印的 GLaDOS 头部和身体外壳。
借助生成式 AI 试遍新款服装
来自罗马尼亚的 Winner Ciobanu 希望借助生成式 AI 提升虚拟试衣体验,他的作品 EdgeStyle: Fashion Preview at the Edge 夺得了第一名。
他使用 YOLOv5、SAM、OpenPose 等 AI 模型,从图像和视频中提取并完善数据,然后使用 Stable Diffusion 生成图像,他表示 Stable Diffusion 是实现精准虚拟试穿的关键所在。
Ciobanu 提到,这个系统教会了模型如何将衣服“穿”在不同姿势的人身上,从而增强了试穿的真实感。
“这个系统非常方便,可以让用户不用真的去实际试穿,就能看到衣服穿在身上的效果。”
他表示,NVIDIA JetPack SDK 提供了在 Jetson Orin 上顺利运行 AI 模型所需的所有工具。
“AI 技术日新月异,拥有一套稳定的工具非常有用。它确实为我们这些开发者节约了时间,减少了麻烦,让我们能够摆脱技术问题的困扰,把更多精力放在构建很酷的东西上。”
让机器人帮助寻找遗失物品
加拿大安大略省的获奖者 Winner Tao 创造的机器人可以帮助人们在家中寻找遗失物品。他的 An Eye for an Item 项目赢得了 Hackster 挑战赛的第一名。
Tao 提到:“寻找丢失的物品是一件苦差事,而近期零样本物体检测和 LLM 领域的最新进展使计算机可以根据文字或图片描述为我们检测任意物体,这带来了实现自动化的可能性。”
Tao 表示自己需要机器人的计算能力来对任何非结构化环境中的物体进行分类,比如客厅、大型仓库等。他还需要机器人执行实时计算以进行导航定位,并在更大规模的物体检测模型上进行推理。
他表示:“Jetson Orin 是一个绝佳的选择,它支持从使用 NanoDB 查询文本和图像到实时里程反馈等一切功能,包括使用 Isaac ROS 的硬件来加速 AprilTag 检测进行漂移校正。”
进一步了解适用于机器人技术和边缘 AI 应用的 NVIDIA Jetson Orin:
https://developer.nvidia.cn/e...
在 Jetson AI Lab 开始创建您自己的项目: