本文首发于 CVHub,白名单账号转载请自觉植入本公众号名片并注明来源,非白名单账号请先申请权限,违者必究。
Title: Scalable, Detailed, and Mask-Free Universal Photometric Stereo
Paper: https://arxiv.org/pdf/2303.15724.pdf
Code: https://github.com/satoshi-ikehata/SDM-UniPS-CVPR2023
背景
Photometric Stereo(光度立体)是一种计算机视觉技术,用于从多个光照条件下的图像中恢复物体表面的三维形状。它基于光照在不同角度下对物体表面产生不同影响的原理。
Photometric Stereo使用多个光源以不同的角度照射物体,并捕获相应的图像。通过观察每个像素点在不同光照条件下的亮度变化,可以计算出该像素点的法线方向(垂直于物体表面的方向)。然后,通过整个图像上的法线信息,可以重建出物体表面的三维形状。
Photometric Stereo在许多领域都有应用,如计算机图形学、计算机视觉、三维重建等。它可以用于非接触式测量物体的形状和表面细节,对于工业检测、制造质量控制、文物保护等领域具有重要意义。
所有的光度立体方法都假设了特定的光照条件,这导致了它们的适用性受限。例如,假设定向光照条件的方法在自然光照下不适用。
导读
在本论文中,研究者介绍了SDM-UniPS,一种具有突破性的可扩展、详细、无遮罩和通用的光度立体网络。论文的方法可以恢复出令人惊叹的复杂表面法线图,与3D扫描仪的质量相媲美,即使在未知的、空间变化的光照条件下,在不受控制的环境中拍摄图像。论文扩展了先前的通用光度立体网络,提取了空间-光照特征,利用高分辨率输入图像中的所有可用信息,并考虑了表面点之间的非局部相互作用。此外,论文还提供了一个新的合成训练数据集,包括了真实场景中的各种形状、材料和光照情景。通过广泛的评估,证明本文方法不仅在公共基准测试中超越了校准的、特定光照技术,而且即使在没有物体掩码的情况下,也能以更少的输入图像获得优秀的性能。
贡献
本文的贡献主要包括:
- 开发了一种尺度不变的空间-光照特征编码器,能够有效地提取光照特征,同时利用所有输入数据,并且在输入图像大小方面具有可扩展性。论文的编码器基于"分割与合并"策略,在训练和测试过程中能够适应不同的输入图像尺寸而不降低性能。
- 开发了一种表面法线解码器,利用论文的新型像素采样变换器。通过随机采样固定大小的像素,论文可以通过采样像素之间的非局部相互作用使用Transformer来同时预测表面法线,从而有效地考虑全局信息。
- 创建了一个新的合成训练数据集,其中包含场景中具有多种纹理的多个物体,在不同的光照条件下进行渲染,包括低频和高频光照。
方法
如上图所示,SDM-UniPS利用尺度不变的空间-光照特征编码器提取不同光照条件下的特征图,然后通过像素采样变换器进行非局部空间相互作用,从中恢复表面法线。
SDM-UniPS
Scale-invariant Spatial-light Feature Encoder
Non-local Interaction with Pixel-sampling Transformer
在光度立体网络中,通过对特征进行像素级聚合,可以恢复表面法线。聚合特征是光度立体网络中的关键步骤,采用了不同的策略,如观测图、最大池化、图卷积和自注意力。论文使用具有自注意力的Transformer模型进行特征聚合,但这种聚合会导致特征丢失光照相关信息,更关注表面属性。在基于物理的任务中,考虑到多个表面点的非局部相互作用是至关重要的,因为常见约束通常存在于整个表面上,而不仅仅是单个点。
为了应对在大尺寸输出分辨率上应用图像级神经网络的巨大计算成本以及可能损害输出法线图细节的问题,论文借鉴了最近在三维点上应用Transformer的方法,并将其应用于从输入坐标系统中随机选择的固定数量的像素样本。这种像素采样Transformer方法通过消除局部相互作用,保持计算效率并保留输出法线图细节。具体操作包括对随机像素样本进行特征插值和聚合,然后通过非局部交互和MLP进行表面法线预测,并将最终的表面法线图合并到输入图像分辨率中。
PS-Mix Dataset
论文创建了一个新的训练数据集,在每个场景中放置了多个相互重叠的物体,并为它们赋予不同的材质。为了确保场景中的材质类别多样化,论文将Adobe-Stock材质资源中的897个纹理映射手动分类为421个漫反射纹理、219个高光纹理和257个金属纹理。对于每个场景,论文从410个Adobe-Stock 3D模型中随机选择四个物体,并为每个物体分配来自三个材质类别的纹理,每个物体随机选择一个纹理。此外,为了使光照条件更加多样化,论文不仅使用环境光照来渲染图像,还使用了五种类型的光源配置,并将它们混合在一起来渲染一个场景;(a) 环境光照,(b) 单向光照,(c) 单点光照,(d) (a)+(b),以及(e) (a)+(c)。光源的方向和位置在参数的有效范围内随机分配
实验
Evaluation under Directional Lighting
DiLiGenT Evaluation
如表2所示。论文的方法不假设特定的光照模型,却超越了针对定向光设计的最先进的标定方法(LB21,LL22a)。此外,与传统的光度立体方法不同,即使输入图像的数量减少,论文提出的方法也不会出现明显的性能下降:即使只有8张图像,它仍保持着最先进的结果。提出的方法(K = 2)也超过了专为两个输入图像设计的TR22。
图5显示了HARVEST和READING的恢复的法线图。由于它们具有高度非凸的几何形状,这些物体被认为是基准测试中最具挑战性的物体。正如预期的那样,最先进的像素级标定方法(LB21)可以恢复更精细的表面细节,而最先进的基于图像的标定方法(LL22a)可以恢复更全局一致的结果。然而,它们都在准确恢复物体的非凸部分方面遇到困难。另一方面,论文的方法可以在不明显困难的情况下恢复表面细节和整体形状,即使使用较少的图像(即K=16)。如预期的那样,I22的性能严重不足。
Evaluation without Object Mask
论文的方法不需要对象掩码,如上图所示,通过应用于两个真实场景和DiLiGenT数据集的实验,证明了这一点。与其他非标定方法相比,论文的方法能够成功捕捉物体边界,并在复杂场景中恢复准确的法线,即使在没有对象掩码的情况下。与那些假设对象掩码的方法相比,论文的方法在使用更少的图像数量时仍能恢复出更合理的表面法线。
Evaluation under Spatially-varying Lighting
论文的方法在具有不同光照条件的挑战性场景上进行了评估,并与UniPS和GM21方法进行了比较。如上图结果显示,论文的方法通过使用尺度不变的空间-光特征编码器和非局部交互,在恢复表面法线方面表现准确。此外,与3D扫描仪相比,论文的方法能够产生更高清晰度的表面法线图,并且对于不同表面材料具有良好的适应性。
上图展示了在复杂的非凸场景中,在挑战性光照条件下,对没有mask的情况进行表面法线预测。我们将方法应用于School Desk、Coins and Keyboard以及Sweets等数据集,成功地恢复了均匀的表面法线,保持了细节和可扩展性。
总结
在本文中,研究者提出了一种可扩展、详细且无需mask的通用光度测量方法。论文证明了该方法在DiLiGenT基准测试中优于大多数校准和非校准方法。此外,与唯一现有的通用任务方法相比,论文的方法表现出了显著的改进。然而,仍然存在一些挑战。
首先,虽然论文方法观察到所提出的方法对于多样化的光照条件具有鲁棒性,但作者发现在光照变化较小的情况下,论文的方法效果不佳。其次,所提出的方法可以通过替换损失和数据而轻松扩展到除了法线图恢复之外的其他任务。实际上,研究人员尝试过输出材质的BRDF参数。然而,由于基本的歧义,很难评估恢复的BRDF参数。
作者:派派星
文章来源:CVHub
推荐阅读
- DIAL-Filters: 显著提升模糊夜视场景下的检测和分割性能!
- 编译器优化那些事儿(9):Machine Outliner
- 阿里达摩院开源大型端到端语音识别工具包FunASR | 弥合学术与工业应用之间的差距
- Cupkee,让硬件简单、好玩!
更多嵌入式AI干货请关注嵌入式AI专栏。欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。