0
点赞
收藏
分享

微信扫一扫

[论文阅读]A Point Set Generation Network for 3D Object Reconstruction from a Single Image

_LEON_ 2022-01-20 阅读 54

论文题目: A Point Set Generation Network for 3D Object Reconstruction from a Single Image (由单张图像进行三维物体重建的点集生成网络, 下文简称PSGN)

论文作者: Haoqiang Fan (清华大学交叉信息研究院); Hao Su, Leonidas Guibas (斯坦福大学计算机科学系)

论文出处: CVPR 2017 (oral)

论文摘要: 解决了由单张图像进行三维重建的问题, 生成了一种直接的输出形式——点云坐标; 设计了新型有效的架构、损失函数和学习范式; 考虑到输入图像的形状真值可能是不确定的, 采用了一个条件形状采样器, 能由一张输入图像预测出多个合理的三维点云. 本文方法不仅能超过目前基于单张图像三维重建的最优方法, 还能做出多种合理预测.

介绍

目前面临的表示的问题: 目前信号领域用于判别、生成学习的现有深度网络结构适合如图像、音频、视频这样规律的采样数据, 而常见的如二维网格、点云这样的三维几何表示并不是规则的结构, 所以大多数现有工作所采用的如体积网格、几何体的二维视图集合这样的常规表示会导致采样分辨率和效率之间难以权衡, 包含了量化伪影, 掩盖三维形状在几何变换下的自然不变性.

点云表示的特点: 和使用几何基元的CAD模型/简单网格相比, 点云虽然在表示基础连续三维几何体时没那么有效, 但点云是一种简单、统一的结构, 其优势在于: 1⃣️更易于学习(无需编码多个基元/组合连接模式); 2⃣️当几何变换变形时点云能简单调整(连接性无需更新)

通过推断由输入图像和由此推断出的视点位置所确定的三维点的位置, 由单张图像能够重建出整个物体的三维点云, 每个点被可视化为一个小球, 沿方位角0度和90度两个视点的重建结果

非传统的网络输出的挑战: 由于相同的几何形状在相同的近似程度下可能接受不同的点云表示, 因此如何在训练时度量损失. 本文使用基于EMD的解决方案. 为了解决从单张图像恢复出三维结构的不良问题, 网络需要去估计图像中几何体可见部分的深度, 对几何体的不可见部分进行假定, 并评估不同假定的可信度. 由于某些视角中固有的物体不确定性, 一张二维图像会产生多个同样好的三维重建, 因此不同于真值唯一的经典回归/分类问题, 损失的定义尤为重要.

本文贡献: 本文最终采用一个条件采样器, 从给定的一张输入图像的真值空间中选择可信点云. 1⃣️用深度学习技术解决点集生成问题; 2⃣️在单张图像三维重建任务上达到最优; 3⃣️系统地探讨网络的架构、损失函数设计问题; 4⃣️讨论解决单张图像三维重建中真值不确定的问题

相关工作

由单张图像进行三维重建

现存问题: 不能稳健地由单张图像重建出完整的高质量形状, 必须引入先验

对形状/环境照明条件作假设——1⃣️B. K. Horn. Obtaining shape from shading information. In Shape from shading, pages 123–171. MIT press, 1989. 2⃣️J. Aloimonos. Shape from texture. Biological cybernetics, 58(5):345–360, 1988.

开创了将基于学习的方法用于简单几何结构——1⃣️D. Hoiem, A. A. Efros, and M. Hebert. Automatic photo pop-up. ACM transactions on graphics (TOG), 24(3):577–584, 2005. 2⃣️A. Saxena, M. Sun, and A. Y. Ng. Make3d: Learning 3d scene structure from a single still image. IEEE transactions on pattern analysis and machine intelligence, 31(5):824– 840, 2009.

图像集合当中的粗略对应关系也可以用于三维形状估计——1⃣️A. Kar, S. Tulsiani, J. Carreira, and J. Malik. Category- specific object reconstruction from a single image. In CVPR, 2015. 2⃣️J. Carreira, S. Vicente, L. Agapito, and J. Batista. Lifting object detection datasets into 3d. IEEE Transactions on Pattern Analysis and Machine Intelligence, 38(7):1342– 1355, 2016.

建立RGBD数据集用于训练基于学习的系统——1⃣️D. Eigen, C. Puhrsch, and R. Fergus. Depth map prediction from a single image using a multi-scale deep network. In Advances in neural information processing systems, pages 2366–2374, 2014. 2⃣️D. F. Fouhey, A. Gupta, and M. Hebert. Data-driven 3D primitives for single image understanding. In ICCV, 2013.

提出将已有的形状变形重组成新模型来适应观察到的图像, 但这依赖于高质量的图像-形状对应——1⃣️H. Su, Q. Huang, N. J. Mitra, Y. Li, and L. Guibas. Estimating image depth using shape collections. ACM Transactions on Graphics (TOG), 33(4):37, 2014. 2⃣️Q. Huang, H. Wang, and V. Koltun. Single-view reconstruc- tion via joint analysis of image and shape collections. ACM Transactions on Graphics (TOG), 34(4):87, 2015.

与本文最相关的工作C. B. Choy, D. Xu, J. Gwak, K. Chen, and S. Savarese. 3d-r2n2: A unified approach for single and multi-view 3d object reconstruction. arXiv preprint arXiv:1604.00449, 2016.(后文简称3D-R2N2)给定单张图像利用神经网络预测基本三维物体为三维体素, 不同点在于1⃣️3D-R2N2是体素表示, 而本文是点云: 点集为神经网络形成更好的形状空间, 预测出的形状更加完整自然; 2⃣️由于单张图像并不能完全确定三维形状的重建, 本文允许单个输入图像有多个重建候选

几何物体合成的深度学习

点集包含来自度量空间的无序样本, 等价的类别被定义为一个排列, 必须考虑地面距离, 而此前深度学习系统不具备此类预测能力

3 问题抽象

目标: 由单张二维图像(RGB/RGB-D)重建出物体的完整三维形状

表示形式: 无序点集S=\left \{ \left ( x_{i},y_{i},z_{i} \right ) \right \}_{i=1}^{N}, 其中N=1024足以保留大多数物体的大致结构. 点集只需要对物体表面的点进行编码, 较为高效, 当物体旋转缩放时点的坐标值经简单线性变化即可.

将真值定义为一个以输入I为条件的概率分布P\left ( \cdot |I \right ), 训练神经网络G作为从该分布中取样的条件采样器S=G\left ( I,r;\Theta \right ), 其中\Theta是网络参数,r是服从 \mathbb{N}\left ( 0,I \right )的随机变量作为扰动输入.

4 本文方法

点集预测网络

简单版本(上); 双预测分支版本(下)

简单版本

编码阶段: 编码器由卷积层和ReLU层组成, 将输入图像I和随机向量r映射到嵌入空间中

预测阶段: 预测器通过全连接网络, 输出N行3列的矩阵M, 其中每行是一个点的坐标, 共N个点

双预测分支版本

更好适应自然物体中常见的大而光滑的表面, 不同于全连接每个点独立预测的方式, 改进预测器的版本包含两个平行预测器分支

FC分支: 同简单版本一样预测N_{1}个点, 灵活度高, 能更好地描述复杂结构

deconv分支: 得到一张H*W*3通道的图像, 其中每个像素的3个通道值是一个点的坐标, 由此给出剩下的H*W个点, 而后会被合并形成矩阵M整个点集, 采用了跳跃连接, 权重共享简洁了参数, 空间连续性使其更能适应于大的光滑表面

点集间的距离度量

损失函数应满足: 1⃣️对应于点的坐标可微; 2⃣️高效计算; 3⃣️对少量的离群点具有鲁棒性(即适用于稀疏点集)

Chamfer distance (CD)S_{1},S_{2}\subseteq \mathbb{R}_{}^{3}之间的距离

对每个点, CD算法找到另一个集合中最近的点并将距离平方相加. CD是连续且分段平滑的, 可并行, 如KD-tree这样的空间数据结构可用来加速最近邻搜索.

Earth Mover's distance (EMD)集合大小相等的S_{1},S_{2}\subseteq \mathbb{R}_{}^{3}之间的距离

EMD在各处是可微的, 为减轻计算, 本文使用了由D. P. Bertsekas. A distributed asynchronous relaxation algorithm for the assignment problem. In Decision and Control, 1985 24th IEEE Conference on, pages 1703–1704. IEEE, 1985.给出的\left ( 1+\varepsilon \right )近似方案.

形状空间

神经网络在预测物体精确几何形状时不可避免地会有不确定性, 可能源于: 有限的网络容量; 输入分辨率使用不足; 三维-二维投影中因信息丢失导致的真值不确定. 面对无法精确解析形状这一固有缺陷, 神经网络会预测不确定空间的一个平均形状.

EMD和CD对形状的平均行为
a,b存在连续变化的隐藏变量(a中的圆的半径和b中的弧的位置), EMD大致捕捉到隐藏变量均值的对应形状; CD则产生了飞溅形状模糊了形状的几何结构
c,d存在分类隐藏变量(c中方状四角和d中条形旁边是否有圆), CD将主体外的一些点分布在了正确位置; EMD则严重扭曲了形状

生成多个合理形状

对于单张图像重建的不确定性, 不确定性建模方法MoN (min of N)损失:

实验

数据集

从ShapeNet数据集的带有纹理的三维物体CAD模型渲染二维视图, 本文使用了涵盖2000个类别的220,000个模型作为训练数据. 对于每个模型, 半球体的半径归一化为单位1并和地面对齐. 根据Blinn-Phong着色公式和随机选择的环境图, 渲染成二维图像. 为了节省计算, 使用简单的局部照明模型.

由RGB图像重建三维形状(与基于深度学习的三维物体重建最优方法3D-R2N2的对比)

与3D-R2N2的视觉对比, 本文方法能更好保留物体细节

 

与3D-R2N2的定量对比(其中更低的数值表示更小的错误率)

与3D-R2N2的按类别对比(IoU), 总共13类中有8类采用本文方法的单视图预测要比3D-R2N2的五视图预测效果还要好

 额外信息的补充

输入RGBD图像的系统可被视为一个三维形状完成方法, 神经网络能够成功猜测出模型的缺失部分, 这通过使用在物体仓库中含有的形状先验, 系统能够利用对称(比如飞机有对称的一侧)或者功能(比如拖拉机要有轮子). 点集表示的灵活性有助于物体一般形状拓扑

 多种合理形状预测

本文网络的随机性使得同一张输入图像能够有不同形状预测. 输入RGB图像, 训练使用Mo2/VAE来处理随机性

网络设计分析

双预测分支对重建的作用

简单版本网络和双预测分支版本网络的对比, 双预测分支版本网络的错误率用CD和EMD度量均更低

 

x、y、z通道值的二维图像: deconv分支网络学习使用卷积结构构造, 呈现出围绕物体弯曲的二维曲面; FC分支由于通道无序, 输出的组织性差

 

蓝色表示deconv分支预测结果: 其对物体的主体捕捉较好; 红色表示FC分支预测结果: 其对物体细节部分予以补充. 两个分支具有互补性

距离度量分析(损失函数的选择)

左侧蓝色表示采用CD训练网络的结果: 其倾向于在不确定部分(如门后)分散一些点, 但能更好地捕捉细节形状(如枪把); 右侧绿色表示采用EMD训练网络的结果: 其结果更紧凑, 但会过度收缩局部结构

 对真实世界数据的应用结果

 

举报

相关推荐

0 条评论