论文阅读：Omni-supervised Point Cloud Segmentation via Gradual Receptive Field Component Reasoning-CFANZ编程社区

Omni-supervised Point Cloud Segmentation via Gradual Receptive Field Component Reasoning

Gong等人（2021a）

通过渐进感受野分量推理进行全监督点云分割

渐进感受野分量推理（RFCR）将第一个全尺度监督方法引入点云分割，其中目标感受野分量代码（RFCC）旨在记录隐藏单元感受野内的类别。编码器。然后，目标RFCC将监督解码器以由粗到细的类别推理方式逐步推断RFCC，最终获得语义标签。由于许多隐藏特征不活跃，幅度很小，对 RFCC 预测贡献较小，因此我们提出了一种具有离心潜力的特征致密化，以获得更明确的特征，它实际上相当于特征的熵正则化。更活跃的特征可以进一步释放我们全方位监督方法的潜力。代码将在 https://github.com/azuki-miho/RFCR 上公开提供。

论文阅读：Omni-supervised Point Cloud Segmentation via Gradual Receptive Field Component Reasoning_编码器

图 1：ScanNet v2 中点云的感受野组件推理从上到下的图示。

感受野成分代码（RFCC）指示感受野中的类别成分。在解码阶段，分割问题被分解为更容易的全局上下文识别问题（预测全局RFCC，参见图顶部）和一系列感受野分量推理问题。在推理过程中，编码器中生成的目标RFCC被用作解码器中的groundtruth，引导网络以由粗到细的方式逐步推理RFCC，最终获得语义标签。

提出了一种通过渐进感受野分量推理的全尺度监督方法。我们没有将隐藏特征上采样到原始分辨率，而是设计了感受野分量代码（RFCC）来有效地跟踪编码关系并表示每个隐藏单元感受野内的类别。在此基础上，我们在编码阶段根据语义标签生成不同层的目标 RFCC，以在所有尺度上监督网络。具体来说，在解码阶段，目标RFCC将监督网络预测不同尺度的RFCC，并且来自跳过链接的特征（提示）可以帮助进一步推导更多局部和特定感受野内的RFCC。

这样，解码阶段就转变为渐进推理过程，如图1所示。

受SceneEncoder[37]的启发，对于编码器任意层中的每个采样点，根据其感受野中类别的存在性，可以构建多热二进制码，指定为目标感受野分量码（RFCC）。不同层的目标RFCC是在卷积和下采样的同时生成的，因此它们可以精确地记录相应感受野中的现有类别，而无需任何额外的注释。在图 1 中，我们显示了解码阶段点云各个层的目标 RFCC，其中网络将首先识别全局上下文（推断整个点云中存在的对象的类别）。然后，上下文特征将被迭代上采样，以从粗到细的方式逐渐推理 RFCC。通过比较目标RFCC和预测RFCC，可以实现全方位的监督。值得注意的是，即使网络逐步推理RFCC，网络的训练和推理也是以端到端的方式实现的。

此外，为了进一步释放全尺度监督的潜力，需要更活跃的特征（幅度较大的特征）来为 RFCC 预测做出明确的贡献。相反，在传统网络中[36,31,37]，许多单元处于不活动状态，且数量级很小，因此对最终预测的贡献较小。上述观察结果的原理来自于特征的熵正则化 [6, 18]，其中更多的活动维度将带来正特征和负特征之间的低密度分离，从而用某些信号生成更明确的特征。因此，在点云场景中，特征的更多确定性可以帮助网络训练更好地推理各种尺度的RFCC并最终预测语义标签。受此启发，我们提出了一种特征密集化方法，该方法具有精心设计的势函数，可以将隐藏特征推离 0。此外，这种势实际上相当于特征上的熵损失（详细推导如第 3.4 节所示），从而导致中间特征的简单但高效的正则化。

为了评估我们的方法在点云语义分割任务中的性能和多功能性，我们将我们的方法嵌入到四个流行的主干中（可变形 KPConv、刚性 KPConv [31]、RandLA [9] 和 SceneEncoder [37]），并在三个上进行测试具有挑战性的点云数据集（ScanNet v2 [2] 用于室内杂乱的房间，S3DIS [1] 用于大型室内空间，Semantic3D [7] 用于大型室外空间）。在所有三个数据集中，我们都优于主干方法和几乎所有最先进的基于点的竞争对手。此外，我们还推动了 S3DIS [1] 和 Semantic3D [7] 的最先进技术。

论文阅读：Omni-supervised Point Cloud Segmentation via Gradual Receptive Field Component Reasoning_点云_02

图 2：渐进感受野成分推理的框架。 (a) 显示目标感受野分量代码 (RFCC) 是与通用编码过程一起生成的。 (b) 表示网络将以从粗到细的方式预测 RFCC。 (c) 表示将隐藏特征推离 0 的离心势。在我们的网络中，目标 RFCC 将监督 RFCC 预测，并且学习到的特征可以将 RFCC 推理为更局部和特定的感受野，因为越来越多的局部特征（线索）通过跳过链接提供。最后一层的预测激活函数将为 Softmax，否则为 Sigmoid。

3.1.概述

我们的渐进式感受野成分推理 (RFCR) 的框架如图 2 所示。在我们的方法中，我们在不同层生成目标感受野成分代码 (RFCC)，同时进行特征的卷积和采样（图 2 (a)）在编码阶段。在解码阶段，网络将对不同层的RFCC进行推理，相应的目标RFCC将对预测的RFCC进行全尺度监督（图2（b））。因此，在识别全局上下文（预测点云中存在的对象的类别）之后，语义分割任务可以被视为从粗到细的感受野分量推理过程。此外，我们通过离心势引入特征致密化，以获得更活跃的特征以进行全尺度 RFCC 预测（图 2 (c)）。

3.2.感受野组件代码

对于点云来说，很容易定义原始点云中某个点的标签。然而，为任何下采样点云中的点提供标签并不简单，该点从其感受野内的点接收信息。在我们的方法中，我们设计了一个感受野分量代码（RFCC）来表示编码器中采样点的感受野内的所有类别。目标 RFCC 是在编码阶段与特征的卷积和采样一起生成的。换句话说，在编码阶段（图2顶部分支的左侧部分）和RFCC生成（图2（a））之间使用共享采样，因此生成的目标RFCC可以精确地记录感受野中的类别分量，甚至尽管点云的采样是一个随机过程。

执行。

我们的 RFCC 被设计为编码器任何层中每个点的多热标签。具体来说，在语义分割任务中，我们需要将每个点分为 C 个类别，RFCC 将是一个 1 × C 二进制向量。给定编码器 pli 第 l 层中的第 i 个点，目标 RFCC gli 表示 pli 感受野中存在的对象类别，每个元素 g l i [k] 表示类别 k 的存在。基于这个定义，我们可以首先将输入点 pi 的 one-hot 标签分配给输入层的 RFCC g1i ，因为点 pi 的感受野只包含 pi 本身：

论文阅读：Omni-supervised Point Cloud Segmentation via Gradual Receptive Field Component Reasoning_编码器_03

其中yi是原始点云中点pi的标签。如图2(a)所示，我们可以从前一层 g l−1 i 中的 RFCC 与 3D Conv 一起：

论文阅读：Omni-supervised Point Cloud Segmentation via Gradual Receptive Field Component Reasoning_正则化_04

其中 k ∈ [1， C]表示通道索引，j是第(l−1)层p l i 感受野中的点的索引。也就是说，由于共享采样，pli 在 3D Conv 中从 pl−1 j 接收特征。 V 表示逻辑 OR（或）运算。值得注意的是，RFCC 的生成仅发生在编码器中，而不是解码器中。 RFCC 的生成不断迭代，直到到达最中心层 L。通常，当最中心层仅包含一个点时，场景描述符只是自然推导的全局监督器 [37]。此外，g 2 i 也可以被视为RMI [44]中邻域多维分布的简化版本，它利用了相邻点之间的语义关系。

3.3. RFCC推理

网络的解码器是在语义分割任务中推断每个输入点的类别。在我们的方法中，如图 2 (b) 所示，我们将这个复杂的问题分解为一个更容易的全局上下文识别问题（预测 g Li ）和一系列渐进感受野分量推理问题（从 g l i 推理 g l−1 i ）逐渐使用来自跳过链接的附加特征α l i ，最终获得语义标签g 1 i )。

如图2所示，β l i 是解码器中采样点p l i 的特征。对于除最后一层之外的每一层解码器，我们应用共享的多层感知器（MLP）Ml 和 sigmoid 函数 σ 到 β l i 来预测 RFCC g~ l i ：

论文阅读：Omni-supervised Point Cloud Segmentation via Gradual Receptive Field Component Reasoning_正则化_05

然后，在编码阶段生成的目标RFCC ~gli 通过逐层监督L l R 直接用于指导~gli 预测：

论文阅读：Omni-supervised Point Cloud Segmentation via Gradual Receptive Field Component Reasoning_正则化_06

论文阅读：Omni-supervised Point Cloud Segmentation via Gradual Receptive Field Component Reasoning_点云_07

Pl 表示编码器第 l 层采样的点云，|Pl|对应 Pl 中的点数。

根据方程(3)，包含全局信息的最中心特征β L i 将学习识别全局上下文，即预测具有最大感受野的g~ Li。同时，g L i 将用于正则化该预测，以帮助 β Li 学习更好的表示。然后，对于解码器的下一层，学习信息表示以预测 g~L i 的 β L 将被上采样并与来自跳跃链接的 α L−1 i 连接。之后，级联特征将用于通过3D Convs提取更可区分的β L−1 i ，提取的特征β L−1 i 将用于推理更局部和特定感受性的RFCC g~ L−1 i场地。迭代此过程直到 l = 2。

RFCC 推理损失可以简单地表示为

论文阅读：Omni-supervised Point Cloud Segmentation via Gradual Receptive Field Component Reasoning_正则化_08

在最后一层，我们可以简单地利用 MLP 和 softmax 来预测 g~ 1 i 和交叉熵损失用于监督原始尺度下的输出特征。

3.4.特征致密化

由于渐进式感受野分量推理引入了大量的监督，因此需要具有明确信号的更主动的特征。

然而，传统网络中存在许多幅度很小的不活动隐藏单元（详细实验见第 4.4 节）。因此，我们引入离心势来实现正特征和负特征之间的低密度分离（即将特征推离0），如图2（c）所示：

论文阅读：Omni-supervised Point Cloud Segmentation via Gradual Receptive Field Component Reasoning_编码器_09

其中 ¯β = a(β) 并且 a 可以是恒等函数或简单感知器。我们可以看到势函数相对于特征的负梯度为：

论文阅读：Omni-supervised Point Cloud Segmentation via Gradual Receptive Field Component Reasoning_正则化_10

与该特征具有相同的符号。这表明鉴于这种潜力，积极特征将变得更大，消极特征将变得更小。另外，根据该公式，绝对值较小的特征将获得较大的梯度。

同时，这种离心势可以通过简单的熵损失来实现：

论文阅读：Omni-supervised Point Cloud Segmentation via Gradual Receptive Field Component Reasoning_编码器_11

其中 ¯β l i;k 是 ¯β l i 的第 k 个通道。如果我们采用以下符号：

论文阅读：Omni-supervised Point Cloud Segmentation via Gradual Receptive Field Component Reasoning_编码器_12

我们可以重新表述方程 (9) 进入

论文阅读：Omni-supervised Point Cloud Segmentation via Gradual Receptive Field Component Reasoning_正则化_13

因此，我们的离心势可以被视为隐藏特征的熵正则化[18]，这可以减少中间层中特征的模糊性。另一方面，我们的全尺度监督可以直接受益于更活跃的特征以及特征致密化引入的某些信号。这是因为更多明确的特征可以参与RFCC预测并帮助学习更好的隐藏层表示，从而提高语义分割性能。

特征致密化的总损失可以总结为

论文阅读：Omni-supervised Point Cloud Segmentation via Gradual Receptive Field Component Reasoning_正则化_14

Kl 表示 ¯β l i 中特征通道的数量。

简而言之，所有监督可以由

论文阅读：Omni-supervised Point Cloud Segmentation via Gradual Receptive Field Component Reasoning_点云_15

得出，其中 λ1 和 λ2 是两个可调整的超参数，而 LS 表示语义分割的常见交叉熵损失。在我们的实验中，我们简单地将λ1和λ2设置为1，我们发现它在大多数情况下都可以表现良好。