论文阅读：Boundary-Aware Geometric Encoding for Semantic Segmentation of Point Clouds-CFANZ编程社区

Boundary-Aware Geometric Encoding for Semantic Segmentation of Point Clouds

Gong等人（2021b）

边界信息在 2D 图像分割中起着重要作用，而在 3D 点云分割中通常被忽略，在特征提取中可能会产生模糊特征，导致两个对象之间的过渡区域发生错误分类。在本文中，首先，我们提出了边界预测模块（BPM）来预测边界点。基于预测的边界，设计了边界感知几何编码模块（GEM），对几何信息进行编码，并在邻域内有区别地聚合特征，从而使属于不同类别的局部特征不会相互污染。为了为边界感知 GEM 提供额外的几何信息，我们还提出了一种轻量级的几何卷积运算（GCO），使提取的特征更具区分性。我们基于边界感知 GEM 构建网络并在 ScanNet v2、S3DIS 等基准测试上对其进行测试。结果表明，我们的方法可以显着提高基线并实现最先进的性能。

在点云中，边界是指属于不同类别的两个或多个对象之间的过渡区域。例如，沙发与地面的交界处可以认为是边界。值得注意的是，边界上提取的特征通常是不明确的，因为它们混合了边界不同侧属于不同类别的点的特征。随着网络的深入，如果其他点合并了边界点的特征，那么边界上的这些模糊特征将不可避免地分层传播到更多其他点。因此，不同对象的信息将跨越边界传播，导致最终语义分割的轮廓较差。

边界预测模块（BPM）

在这个模块中，我们给出了边界的软预测，并且该模块由动态生成的边界的真实情况巧妙地监督。值得注意的是，与语义分割相比，边界预测更容易并且可能获得更好的结果。因此，我们引入轻量级 BPM 来预测边界。然后，我们使用预测作为辅助信息来提高分割的性能。 BPM 和分割网络以端到端的方式联合训练。图 1 说明了几个场景中的预测边界。大多数都准确定位在不同类别之间，这也直观地体现了我们BPM的有效性。

边界感知几何编码模块（GEM）

以在特征提取中利用预测边界。当聚合局部特征时，我们通过防止特征跨边界传播，只允许在每个对象区域内共享信息。因为局部特征可以提供更多的细节信息，混合不同类别的局部特征肯定会破坏这些细节信息。然后，在接下来的编码器层中，对代表点进行采样并对全局特征进行编码，属于不同类别的信息可以通过边界传递以获得全局场景信息。这样，预测的边界将充当屏障，防止局部特征提取中不同类别的信息混合而在全局特征提取中被忽略。

为了有效地利用几何信息，我们设计了一种轻量级的几何卷积运算（GCO），它补充了边界感知 GEM 的几何特征。在 GCO 中，我们关注邻居的角度分布，而不是 KCNet（Shen 等人，2018）和 KPConv（Thomas 等人，2019）中使用的空间分布，它对点的密度敏感且缺乏泛化能力。具体来说，我们使用一个简单的向量集作为可训练的内核来学习几何图案。在具有 m 个点的邻域中，其几何图案可以由 m 个 3-D 方向向量表示。因此，我们提出的可训练几何内核具有相同的形式。然后，几何卷积是核中的向量与邻域中的方向向量的乘法之和。与 2D 卷积一样，如果局部几何图案与学习的内核相似，GCO 的响应将会很大。

总的来说，主要贡献可以概括如下：（1）我们提出了一种边界感知几何编码模块（GEM），以准确编码几何信息并防止局部特征提取中信息跨越边界传播。据我们所知，我们是第一个以显式方式将边界信息纳入 3D 特征聚合过程的人。 (2) 导出了边界预测模块（BPM），该模块由动态生成的地面实况进行监督，用于预测边界并为边界感知 GEM 提供边界信息。 (3) 具有可学习向量核集的几何卷积运算（GCO）也被设计为以轻量级方式探索每个点的局部几何形状。对基准数据集的实验表明，采用所提出的边界感知 GEM 的尖端骨干网可以实现最先进的性能。

论文阅读：Boundary-Aware Geometric Encoding for Semantic Segmentation of Point Clouds_点云

图 2：我们网络的整体架构，由边界预测模块和每层的边界感知几何编码模块组成。 (a) 说明了总体架构。 (b) 描述了边界预测模块的架构。 (c)详细描述了边界感知几何编码模块。

网络概述

在本文中，我们充分考虑了场景的几何特征。总的来说，如图2（a）所示，我们提出了一个由边界预测模块（BPM）和边界感知几何编码模块（GEM）组成的编码器-解码器网络。 BPM是一个小型而简洁的神经网络，用于预测边界点，从而为边界感知GEM提供边界线索来调整局部区域的特征传播。

同时，边界感知GEM还借助新导出的几何卷积运算（GCO）对局部区域的几何信息进行编码，稍后将对此进行描述。值得注意的是，只有当点数较多时（即编码器的前期和解码器的后期）才涉及边界。在其他层中，所有点都被视为非边界点，我们只关注几何上下文。

边界感知几何编码

为了实现边界感知 GEM，我们首先引入边界预测模块来预测给定点云的边界点。该模块通过基于语义标签动态生成的目标边界进行正则化。随后，预测的边界信息用于阻止信息跨边界传播以进行局部特征提取。通过契约，全局特征和抽象特征可以跨越边界，以更好地识别全局场景。

边界预测模块。

首先，我们自动将训练样本中的每个点注释为边界g的指示符，边界g是根据每个点的标签定义的，如下所示。在目标边界中，如果第 i 个点位于边界上，则 gi 为 0，否则等于 1。对于每个点 p，其是否位于边界上由其局部邻域决定。也就是说，给定p的固定数量的相邻点，如果存在超过预定义比例（详细描述在实验中）的不属于与p相同类别的点，则假设p是p上的点边界，否则就不是。

边界预测任务与语义分割略有不同，因为边界预测应该意识到局部区域语义信息的差异。为此，如图2(b)所示，我们收集每个点的局部区域中k个最近邻的特征，并将收集到的特征的方差作为BPM后续部分的输入。然后，像 PointNet (Qi et al 2017a) 一样，我们利用几个共享的 MLP 来预测整个输入点云的边界注释 g^。与精心设计的网络相比，我们的 BPM 紧凑且易于训练。具体来说，其训练损失如下：

论文阅读：Boundary-Aware Geometric Encoding for Semantic Segmentation of Point Clouds_邻域_02

其中w1和w2用于平衡两个类别数量之间的巨大差异。我们还利用交叉熵损失来正则化最终的语义分割输出，总损失是边界预测损失和语义分割损失的简单相加。

带边界的特征聚合。

如上所述，在所提出的边界感知 GEM 中（图 2（c）），我们尝试在编码过程的早期阶段阻止局部特征从边界上的点传播。因此，根据预测的边界，我们利用边界信息作为掩模/过滤器，在特征聚合期间为不同的点分配不同的权重。在此之前，我们还利用GCO（稍后将给出详细描述）来提供额外的几何特征。边界感知 GEM 解码器和编码器的主要区别在于，我们不使用解码器中的 GCO 作为相应编码器的输出特征，而编码器已经包含的几何信息将连接到解码器的输入。

给定预测的边界点（图 1 中的红点，2.(c))，在对灰点进行特征聚合时，它将收集邻域内的特征，但忽略边界上的那些点。因此，点pi的局部特征聚合可以表示为：

论文阅读：Boundary-Aware Geometric Encoding for Semantic Segmentation of Point Clouds_点云_03

其中 fpj 表示包含原始特征和几何特征的相邻 pj 的特征，g^j 作为掩码为 fpj 分配权重。在此公式中，N (pi) 是 pi 的邻域，M 表示共享 MLP，以在此尺度上组合原始特征和提取的几何特征。参考图2（c），我们可以知道，φ通过另外几个MLP从邻居pj的相对位置rij学习权重。此外，A 是通过矩阵乘积完成的聚合函数，σ 表示激活函数。值得注意的是，如果 pj 在边界上，则 g^j 为 0，并且该边界点不会对聚合特征做出贡献。

通过这种方式，我们可以防止边界上的点的特征融合到提取的局部特征中，从而信息不太可能跨越边界污染属于其他类别的特征（如图1所示，2.(c))。我们只需要为输入层预测点云的边界，而在后面的编码阶段，点和预测的边界标签同时进行下采样。与前几层的局部特征不同，全局特征可以通过边界点在不同对象之间传播。因此，在后期，我们提取全局特征如下：

论文阅读：Boundary-Aware Geometric Encoding for Semantic Segmentation of Point Clouds_邻域_04

在解码阶段，特征提取过程是对称的。具体来说，当点数仍然很小时，全局特征会传播，而不会妨碍更好地识别全局上下文。而在解码器的后期，我们再次阻止特征跨越边界的传播，以获得有区别的局部特征

几何卷积

为了给边界感知的GEM提供额外的几何信息，我们提出了一种轻量级的几何卷积运算（GCO），它具有可学习的内核来提取不同尺度的几何信息，见图2左下角的边界框（C）。

几何内核。

在我们的方法中，我们提出了一个具有三个方向向量 fv1 的几何内核 Kgeo：

论文阅读：Boundary-Aware Geometric Encoding for Semantic Segmentation of Point Clouds_特征提取_05

。每个向量代表 3D 空间中的一个方向，因此内核本身可以描述点在方向上的分布，从而判断点位于何处（例如，在平面或曲面上）。与使用大量核点的（Shen et al 2018；Thomas et al 2019）不同，我们的方法仅采用三个 3-D 方向向量。尽管所提出的操作具有更简单的结构，但其性能与一些复杂的操作符相当，这一点在消融研究得到证明。因为，四面体是最简单的多面体，这三个方向向量连同原点可以代表一个四面体。此外，通过分层几何特征提取可以识别更复杂的几何图案。图 3 展示了不同对象的学习内核和热图以显示有效性。

论文阅读：Boundary-Aware Geometric Encoding for Semantic Segmentation of Point Clouds_点云_06

图 3：不同学习内核响应的热图。最左边的列显示内核，右边的列显示一些示例的响应（越红，越大）。这两个内核分别学习水平面和垂直线的图案

几何卷积运算。

对于点云中的点，局部模式由该点与其邻居的相对位置表示。与2D卷积类似，如果邻域的几何图案与学习的GCO核非常相似，则响应将会很大，从而识别出几何图案。

我们的几何卷积更多地关注邻居的角度分布，而不是像 KCNet 那样关注它们的相对位移（Shen et al 2018）。对于每个点 pi ，用于表示局部模式的三个邻居的相对位置由

论文阅读：Boundary-Aware Geometric Encoding for Semantic Segmentation of Point Clouds_邻域_07

表示。使用 Kgeo 卷积，输出可表示为

论文阅读：Boundary-Aware Geometric Encoding for Semantic Segmentation of Point Clouds_邻域_08

其中 b 是偏差，σ 是激活函数。 Pi(·) : (1, 2, 3) --> (1, 2, 3) 表示一个映射函数，它在内核中查找 ~dij 的匹配向量。值得注意的是，由于点云是无序的，因此很难使用固定的映射。此外，如果 Kgeo 描述了与邻域相同的模式，则每对 ~dij 和匹配的 ~vPi(j) 将处于相同的方向，从而使点产生最大。因此，在我们提出的卷积过程中，我们动态地选择使输出最大化的映射函数。显然，我们的几何卷积对两个向量之间的角度更敏感 cos< ~dij ； ~vPi(j)> 而不是邻域向量与核|~dij −~vPi(j) | 之间的位移，它更容易受到点云的尺度和密度的影响。

提取几何特征后，将它们与点的原始特征连接起来，进行进一步的边界感知几何编码（图2（c）），使不同几何形状的点更容易区分。在编码器中，可以从不同尺度学习几何图案，因此可以通过不同尺度的几何特征的组合来表示复杂的几何图案。

实验

实验可以分为两部分。我们展示了我们的方法的性能，并将其与 ScanNet v2 上其他最先进的方法进行比较（Dai 等人）

2017）和 S3DIS Area-5（Armeni 等人 2016）分别用于场景语义分割任务。然后，进行深入的消融研究。像许多之前的作品一样，我们将类别的平均交集（mIoU）作为我们的度量（Wu，Qi 和 Fuxin 2019）。代码可在 https://github.com/JchenXu/BoundaryAwareGEM 获取。

场景语义分割

数据集。

在场景语义分割任务中，我们在 ScanNet v2 (Dai et al 2017) 和 S3DIS (Armeni et al 2016) 上评估我们的方法。在ScanNet v2中，一共有1个； 201 个扫描场景用于训练，312 个场景用于验证。

另外，还提供了100个场景作为测试样本，有20个不同的类别。按照（Wu，Qi，和 Fuxin 2019），我们从具有 8,192 个点的房间中随机采样 3m × 1:5m × 1:5m 立方体作为训练样本，并在整个扫描中进行测试。在S3DIS中，有六个室内区域，包括来自三座不同建筑的271个房间。每个点都用 13 个类别的相应标签进行注释。我们按房间分割点，并将所有房间采样为 0:5m × 0:5m 的块，填充为 0:25m。与之前作品中使用的实验设置一样（Qi et al 2017a；Li et al 2018），我们将区域 5 划分为测试集，并使用其他区域进行训练。在训练区域中，每个块采样 4,096 个点，测试区域中的所有点都用于逐块测试。

执行。

在我们的方法中，我们采用像 PointConv 这样的矩阵乘法来实现权重计算和特征聚合的有效方法（Wu、Qi 和 Fuxin 2019）。因此，我们以PointConv作为基线，但在特征提取过程中我们不使用密度信息，因为它对性能的提升有限。

在BPM中，为了自动注释每个输入点云的目标边界点，32个邻居中超过40%的点不属于同一类别被假定为边界点。然后，由于边界点是根据邻域信息预测的，而颜色信息与边界预测高度相关，因此我们将32个邻域颜色特征的方差作为每个点的聚合特征，进一步预测边界点。预测边界点后，我们构建一个基于边界感知 GEM 的编码器-解码器网络，并将颜色和坐标信息作为其输入。我们的模型由 Adam 优化器在 GTX 1080Ti GPU 上进行训练，ScanNet 的批量大小为 8，S3DIS 的批量大小为 12。此外，我们还分析了不同场景中边界点和非边界点的真实值数量。因此，对于ScanNet，LBPM中使用的w1和w2是1和10，对于S3DIS，w1和w2是1和2。

结果。

对于 ScanNet v2，我们在表 1 中报告了各个类别的平均 IoU (mIoU)，其中我们实现了 63:5% 的 mIoU。它表明我们的方法优于许多最先进的竞争对手。图 4 可视化场景语义分段PointConv 和我们的方法的心理结果。误分类容易出现在两个相邻对象的过渡区域。例如，在第二行第三列中，“墙壁”类别的点被预测为与墙壁相邻的“图片”，导致图片的轮廓较差。相比之下，受益于边界意识，我们的网络在这个过渡区域表现良好。

对于 S3DIS，我们在表 2 中报告了各个类别的 MIoU。在这个基准测试中，我们的 mIoU 达到了 61:43%，这比许多最先进的竞争对手有更好的性能。此外，我们在图 4 中可视化了分割结果。从图中可以看出，由于使用 Boundaryaware GEM 进行局部特征提取，我们的方法获得的分割结果具有更好的轮廓。