在本周举办的计算机视觉和模式识别会议(CVPR)上,英伟达推出了一种名为 3D MoMa 的 AI “魔法”:将静态 2D 照片转换为可轻松编辑的 3D 模型。
据英伟达介绍,3D MoMa 可供建筑师、设计师、艺术家和游戏开发者将图像转换的 3D 模型快速导入图形引擎,使用过程中还可以修改比例、更改材料或尝试不同的照明效果。
1.从 2D 图像中提取 3D 模型
现实中,如想让使艺术家或工程师能充分利用 3D 模型,将其放入游戏引擎、3D 建模器或电影渲染器等广泛使用的工具中最好不过,不过前提是:这类 3D 模型是带有纹理材料的三角网格形式(主要用于定义 3D 图形和建模形状的基本框架)。
一般来说,许多游戏工作室和创作者习惯性会使用复杂的摄影测量技术来创建此类 3D 模型,不仅要劳心劳力地手动操作,还需耗费大量时间——但 3D MoMa 的出现或将改变这一局面。
据了解,3D MoMa 的背后,是被英伟达图形研究副总裁 David Luebke 称之为“统一计算机视觉和计算机图形的圣杯”的逆向渲染技术。
逆向渲染,即将一系列静态 2D 照片重建成物体或场景的 3D 模型的技术,而 3D MoMa 则是通过将每一个逆向渲染问题都定义为 GPU 加速的可微分组件,使用现代 AI 机器和英伟达 GPU 的原始计算能力来快速生成 3D 对象,使创造者可以在现有工具中不受限制地对其导入、编辑和扩展。
英伟达官博介绍道,3D MoMa 能在单个 Tensor Core GPU 上,1 小时内就生成三角网格模型,输出结果将直接与创作者正在使用的 3D 图形引擎和建模工具兼容。
不仅如此,因为 3D MoMa 生成的是三角网格模型,而网格就像是由三角形构建的 3D 形状纸质模型,因此创作者可以对其进行重建:改变其网格模型、材质和照明效果。
2.虚拟 3D 乐器大秀爵士乐表演
为了更直观地展示 3D MoMa 的功能,英伟达研究团队首先从不同角度收集了五种爵士乐队乐器(小号、长号、萨克斯管、架子鼓和单簧管)的近 100 张图像。
然后,研究团队利用 3D MoMa 将这些 2D 图像转换为每个乐器的三角网格模型,将其从原始场景中取出并导入 Omniverse 3D 模拟平台进行编辑。
正如上文所说,创作者可以对 3D MoMa 的输出结果重建,因此英伟达研究团队也进行了尝试。
例如:可改变材质,把小号原来的塑料材质转换为黄金、大理石、木材或软木;
可将新编辑的模型放入虚拟场景,将这些乐器放入了经典的图形渲染质量测试康奈尔盒(Cornell Box)中,发现虚拟乐器在里面对光线的反映与现实世界中一样。这些通过逆向渲染生成的新模型可用作复杂动画场景的构成要素。
虽然目前的 3D MoMa 仍在开发中,但英伟达对此充满期待:相信它可以让游戏开发这和其他设计师快速修改 3D 对象,然后将它们添加到任何虚拟场景中。
参考链接: