0
点赞
收藏
分享

微信扫一扫

Virtual Multi-view Fusion for 3D Semantic Segmentation论文简读

Virtual Multi-view Fusion for 3D Semantic Segmentation论文简读_二维

paper: ​​https://arxiv.org/abs/2007.13138​​


文章目录

  • ​​Abstract​​
  • ​​Method Overview​​
  • ​​Virtual view selection​​

Abstract

三维网格的语义分割是三维场景理解的一个重要问题。在本文中,我们回顾了经典的三维网格的多视图表示,并研究了使其有效地进行网格的三维语义分割的几种技术。给定了一个由RGBD传感器重建的三维网格,该方法有效地选择了三维网格的不同虚拟视图,并生成了多个二维通道来训练一个有效的二维语义分割模型。最终将每个视图的多个预测特征融合在三维网格顶点上,以预测网格语义分割标签。利用ScanNet的大规模室内三维语义分割基准,我们表明了我们的虚拟视图比以往的多视图方法更有效地训练二维语义分割网络。当将每像素的二维预测聚合在三维表面上时,与之前的多视图方法相比,我们的虚拟多视图融合方法能够实现更好的三维语义分割结果,并与最近的三维卷积方法具有竞争力。
Virtual Multi-view Fusion for 3D Semantic Segmentation论文简读_二维_02

Method Overview

图1说明了所提出的多视图融合方法。它包括以下步骤:

Training stage。在训练阶段,我们首先为每个三维场景选择虚拟视图,其中对于每个虚拟视图,我们选择相机内部、相机外部、要渲染的通道和渲染参数(例如,深度范围、背景选择)。然后,我们通过渲染选定通道的选定虚拟视图和地面真相语义标签来生成训练数据。我们使用渲染的训练数据来训练二维语义分割模型,并在推理阶段使用该模型。

Inference stage。在推理阶段,我们使用与训练阶段类似的方法来选择和渲染虚拟视图,但没有地面真相语义标签。我们使用训练后的模型对呈现的虚拟视图进行二维语义分割,将二维语义特征投影到三维,然后通过融合多个投影的二维语义特征推导出三维中的语义类别。

Virtual Multi-view Fusion for 3D Semantic Segmentation论文简读_多视图_03

Virtual view selection

虚拟视图选择是所提出的多视图融合方法的核心,因为它与具有原始图像视图的多视图融合相比具有关键优势。首先,它允许我们自由地选择最适合二维语义分割任务的相机参数,以及使用任何一组二维数据增强方法。其次,它通过放宽真实相机的物理限制,并允许从不现实但有用的相机位置获得的视图,显著扩大了选择范围,例如。跟在一堵墙后面。第三,它允许二维视图捕获难以用真实相机捕捉的其他通道,例如,法线和坐标。最后,通过选择和渲染虚拟视图,我们基本上消除了在三维重建过程中常见的相机校准和姿态估计中的任何错误。最后,在不同尺度上的采样视图解决了传统二维网络的尺度方差问题。

Camera intrinsics。原始图像视图的一个重要约束是,FOV图像可能已经非常接近对象或墙壁,例如,并且缺乏精确分类所必需的对象特征和上下文。相反,我们使用了一个比原始相机的视场(FOV)明显更高的针孔相机模型,提供了更大的上下文,导致更准确的二维语义分割[27]。图3显示了原始视图与具有高FOV的虚拟视图相比的示例。

Virtual Multi-view Fusion for 3D Semantic Segmentation论文简读_数据_04
Virtual Multi-view Fusion for 3D Semantic Segmentation论文简读_多视图_05

Camera extrinsics。我们使用以下采样策略选择相机提取,如图2和4所示。

  • 统一抽样。我们希望均匀地采样相机提取物来生成许多新的视图,独立于三维场景的特定结构。具体地说,我们使用来自三维场景顶部均匀采样位置的自上而下视图,以及通过场景中心但在三维场景中均匀采样位置的视图。
  • 按比例不变的抽样。由于二维卷积神经网络通常不是尺度不变的,因此如果视图的尺度与三维场景不匹配,模型的性能可能会受到影响。为了克服这一限制,我们提出了在三维场景中的片段范围内的采样视图。具体地说,我们对三维场景进行了过度分割,对于每个片段,我们通过沿着正常方向返回一定的距离范围来定位镜头。我们做了一个深度检查,以避免被前景物体遮挡。如果在渲染阶段禁用后台计算(下面将详细讨论),我们将进行光线跟踪并删除被后台阻挡的任何视图。注意,三维场景的过度分割是无监督的,不使用地面真实语义标签,因此尺度不变采样可以应用于训练和推理阶段。
  • 类平衡抽样。类平衡已被广泛用作二维语义分割的数据增强方法。我们通过选择查看表示不足的语义类别的网格段的视图来进行类平衡,类似于标度不变抽样方法。注意,这种采样方法仅适用于地面真相语义标签可用时的训练阶段。
  • 原始视图采样。我们还从原始的相机视图中采样,因为它们代表了人类如何在具有真实物理约束的真实三维场景中选择相机视图。此外,三维场景是从原始视图重建的,所以包括它们可以确保我们覆盖的角情况,否则作为随机虚拟视图是困难的。

Virtual Multi-view Fusion for 3D Semantic Segmentation论文简读_多视图_06


举报

相关推荐

0 条评论