论文阅读：Zero-Shot Single-View Point Cloud Reconstruction via Cross-Category Knowledge Transferring-CFANZ编程社区

Zero-Shot Single-View Point Cloud Reconstruction via Cross-Category Knowledge Transferring

通过跨类别知识转移进行零样本单视点云重建

Lai, L., Chen, J., & Wu, Q. (2023). Zero-Shot Single-View Point Cloud Reconstruction via Cross-Category Knowledge Transferring. IEEE Transactions on Multimedia.

摘要：单视点云重建的目的是在给定从任意视点拍摄的一张 2D 图像的情况下生成对象的 3D 点云。以前的大多数工作都假设所有测试类别在训练期间都已呈现给模型。然而，不可能提前知道模型将遇到的所有测试类别。我们发现这些方法不能很好地处理新类别。因此，在本文中，我们研究了更现实和更具挑战性的单视点云重建设置（零样本），其中追求模型在新类别上的性能。针对此任务，我们提出了跨类别知识转移网络（CCKTN），它维护一个知识库，从已知类别中挖掘可转移知识，以帮助重建新类别。此外，我们通过共享相同的知识库，使用点云自动编码器对点云重建模型进行辅助学习。这样的设计使得知识库能够收集到更加丰富的点云3D知识。此外，我们为知识向量设计了多样性损失正则化，以保证其多样性，进一步提高CCKTN的性能。在 ShapeNet 和 ModelNet 数据集上进行的综合实验显示了 CCKTN 相对于现有方法的优越性，并证明了 CCKTN 在重建新类别对象方面的有效性。

关键词——零样本、点云、重建。

1.简介

近年来，点云数据在多媒体中变得越来越重要，并具有自动驾驶、室内导航、增强现实等各种应用。然而，大多数点云数据是通过 Lydia 或 RGB-D 相机手动收集的，导致昂贵的成本。另一方面，单视点点云重建可以在给定任意视点的一张2D图像的情况下生成3D物体的点云，从而显着降低成本并有利于点云开发。文献中现有的作品仔细设计了深度神经网络，并使用大量的（图像、点云）对来训练模型[1]-[4]。受益于深度学习和大规模3D数据集的进步，这些方法在一定程度上取得了令人满意的性能。

论文阅读：Zero-Shot Single-View Point Cloud Reconstruction via Cross-Category Knowledge Transferring_点云

图 1. 现有方法在可见类别和不可见类别上的性能。倒角距离 (CD) 测量预测与地面实况之间的重建误差。该模型很好地重建了见过的类别，但在看不见的类别上表现不佳。

尽管以前的作品取得了成功，但它们也有一些不可忽视的局限性。他们中的大多数人假设所有测试类别在训练期间都已呈现给模型。但要预见所有未来的类别并提前为模型准备好训练数据几乎是不可能的。图 1 显示了流行方法 (PSGN) 对已见和未见类别的定量和定性结果。对于可见的类别，飞机和椅子，PSGN 表现良好。准确地说，它可以预测它们的完整形状并实现较小的倒角距离 (CD) 误差。然而，当处理不可见的类别、工作台和灯时，其性能严重下降，重建结果更加混乱，CD 误差更高。这是因为 PSGN 已经遇到了大量所见类别的实例，并学习了良好的先验知识来支持它们的重建。尽管如此，这些先验并不适合看不见的类别。由于缺乏先验知识，PSGN 无法为未见过的类别对象提取良好的表示，从而降低性能。为此，我们在本文中研究了一种更实用且更具挑战性的单视点云重建设置，即零样本。我们在图2中画出了单视点云重建的标准设置和零样本设置之间的差异。在标准设置中，用于训练和测试的类别是相同的。相反，在零样本设置中，类别不重叠，并追求模型对新类别的泛化性能。因此，重建模型必须从基本类别中学习通用且可迁移的知识来重建新类别。

论文阅读：Zero-Shot Single-View Point Cloud Reconstruction via Cross-Category Knowledge Transferring_编码器_02

图 2. 单视点云重建的 (a) 标准和 (b) 零样本设置的比较。在标准制定中，训练和测试的类别是相同的。不同的是，它们在零样本任务中是不重叠的。

与以前的人工算法不同，人类对新类别的泛化能力要强得多。具体来说，他们可以根据一张 2D 图像轻松想象出未见过的类别对象的 3D 形状。原因可能是人类在日常生活中已经看到了数百种不同的类别。他们在生活中积累了丰富的关于2D图像和3D点云之间投影的知识。不同类别之间有一些相似之处，例如桌子和椅子的腿，桌子和床的平面等。当遇到新的类别时，人类可以迁移从以前看到的类别中学到的相关知识作为帮助。基于上述观察，我们提出了用于零样本单视点云重建的跨类别知识转移网络，简称CCKTN。 CCKTN 模仿人类大脑，维护一个知识库，从训练数据中挖掘和存储可转移的知识，以帮助重建新的类别对象。知识库是一组可学习的知识向量。使用图像表示进行查询，它根据知识向量的相似性响应返回所有知识向量的加权和，作为图像的辅助信息。知识向量通过随机梯度下降与重建网络并行地进行端到端优化。

此外，我们利用点云自动编码器对点云重建模型应用辅助学习。正如[1]中所述，单视图输入不能为重建提供足够的信息，因为一幅 2D 图像无法覆盖整个 3D 对象，并且需要有关目标对象的附加 3D 信息。另一方面，点云自动编码器提供了一种无监督的方式，通过鼓励学习点云的有意义的 3D 知识恢复的点云与输入点云相似。

为此，我们相信点云自动编码器所学到的3D知识可以有利于重建模型。我们发现点云自动编码器的前向过程与单视点云重建模型的前向过程类似，两者都首先将输入编码为特征向量，然后将特征向量解码为目标点云。差异在于输入，其中重建模型是 2D 图像，而自动编码器是 3D 点云。为了利用点云自动编码器的知识，我们构建了一个带有点云自动编码器的辅助分支，并排并与我们的重建网络共享相同的知识库。这样，知识库就可以通过重构和自动编码器的目标函数同时进行优化，引导其学习更丰富的内容。

最后但同样重要的是，由于知识向量是自动学习的，没有任何限制，训练后它们可能会变得有些相似，削弱了知识库的表达能力。为了解决这个问题，我们为知识向量设计了多样性损失正则化，进一步提高了 CCKTN 的性能。我们在 ShapeNet 和 ModelNet 数据集上进行了广泛的实验，以评估我们设计的有效性，CCKTN 的性能明显优于基线方法。

我们的主要贡献总结如下。

• 我们提出了用于零样本单视点云重建的CCKTN，它可以从所见类别中挖掘可转移的知识，以帮助重建新的类别对象。

• 我们对点云重建模型采用了有效的辅助学习方法，这是对点云重建问题的新颖尝试。

• 我们对ShapeNet 和ModelNet 数据集进行了全面的实验，与基线方法相比，CCKTN 显示出卓越的性能。

二.相关工作

单视图点云重建的目标是在给定一张 2D 图像的情况下预测对象的 3D 点云 [1]–[6]。大多数现有方法采用encoder-decoder架构并构建（视图，点云）对进行训练。作为开创性工作，PSGN [1] 将重建问题建模为以输入图像为条件的点云上的概率分布，并提出了 MoN（N 的最小值）损失。 TDPNet [4] 学习了每个类别的多个原型，并将它们用作先验知识来指导重建。考虑到2D视图图像的自遮挡问题，Mandikal等人[2]设计了3D-LMNet，它学习从2D图像到相应嵌入的映射，并利用点云自动编码器来实现重建。 DensePCR [3] 通过首先预测稀疏点云然后迭代增加其分辨率来生成密集点云。尽管现有方法取得了成功，但他们假设模型在训练过程中已经看到了所有目标类别，并且无法处理未见过的类别，这促使我们研究零样本单视点云重建。

广义3D重建追求新类别的重建性能。最近的作品涉及各种 3D 数据格式，例如在少样本或零样本设置下，体素[7]-[10]、网格[11]、点云[12]等[13]、[14]。 Few-shot 设置[7]、[10]、[15]、[16]给出了一些支持样本作为参考。 Wallace 等人 [7] 将支持样本视为形状的先验，并使用 3D 反卷积来生成体素。在[7]、[8]提出学习组合先验之后，[10]提出在网络存储器中提取和存储形状先验知识。不同的是，零样本设置不提供任何新颖类别的数据，这更具挑战性。针对零镜头网格重建，Yang 等人[11]提出了一种多视图轮廓损失来测量 2D 空间内的表面质量作为辅助正则化，并获得了重要的改进。

与网格相比，点云更容易获得并且具有更广泛的应用，这激发了我们对零样本单视点云重建的研究。知识/记忆库维护一组向量来存储以前经验的重要信息并辅助后续场景，广泛应用于各种主题[17]-[25]。在自然语言处理中，Sukhbaatar 等人[17]在注意力模块中使用记忆向量来捕获不同文本中的一般知识。在视觉域适应中，Wang等人[18]利用知识库来存储来自源域实例的风格信息并将其传输到目标样本，有效地弥合了源域和目标域之间的差距。 [19]采用知识库，通过巧妙的元学习策略从不同领域的数据中提取与领域无关但与内容相关的知识。在视频超分辨率中，Yu等人[21]设计了一个存储模块，用于在训练过程中记住相邻帧之外的一般视频细节，并补偿当前帧的信息丢失。在本文中，我们利用知识库来挖掘跨类别的可转移知识，并帮助重建新的类别。

辅助学习旨在设计辅助任务来促进目标任务的学习[26]-[32]。它们之间的信息流通常是通过共享一个或多个公共模块来激活的，例如特征提取器。近年来，辅助学习因其在各种应用中的有效性而变得越来越流行。例如，Valada 等人[26]利用姿态估计的辅助学习来辅助视觉定位和里程计。 Tang 等人[27]在文本翻译任务的帮助下改进了语音翻译模型的性能。在[28]中，辅助细粒度分类任务提供了有价值的信息并提高了图像识别的分数。 Wu等人[31]设计了一个针对人脸图像的自监督辅助任务，以提高模型在注视估计方面的鲁棒性。 Liu等人[32]设计了两个辅助域对齐任务来促进基于图像的3D形状检索的学习。我们创新且成功地利用辅助学习通过点云自动编码器帮助点云重建。

点云自动编码器属于无监督学习主题[33]-[38]。通过鼓励解码的点云与输入的点云相似，模型可以学习良好的表示。 FoldingNet [33] 连接点云特征向量具有规范的 2D 网格，并通过两个基于 MLP 的折叠操作将其变形为 3D 表面。在[34]中，Achlioptas等人对使用不同解码器的效果进行了全面的探索和分析，包括生成对抗网络和高斯混合模型。

You等人[35]提出了一种基于补丁的想法，将点云划分为补丁，独立编码每个补丁，并采用补丁到补丁的标准作为监督。 [37]提出的TearingNet采用Tearing Network和Folding Network相互交互并迭代恢复点云。我们的方法使用点云自动编码器进行辅助学习，其中每个现有的工作在理论上应该是兼容的。然而，为了简单起见，我们采用最简单的一种，用 PointNet 作为编码器，用多层感知器作为解码器。

三．问题设置

零样本单视点云重建目标在给定从任意视点拍摄的一张二维图像的情况下生成不可见类别对象的点云。设 D = {(Ii , Pi)} Ni=1 表示涉及类别集 C 的总图像-点云对数据集，其中 I 是从对象的随机视图渲染的二维图像，P 表示采样点其表面上的云，N 是数据集的基数。为了适应零样本设置，我们将类别集 C 分为两个不相交的子集，分别为 Cbase 和 Cnovel。使用基本类别 Cbase 的数据进行训练，考虑模型在新类别 Cnovel 的那些对象上的性能。

四．方法

在本节中，我们介绍了所提出的用于零样本单视点云重建的 CCKTN。如图3所示。 CCKTN下设两个分支机构和一个知识库。

论文阅读：Zero-Shot Single-View Point Cloud Reconstruction via Cross-Category Knowledge Transferring_点云_03

图 3. 所提出的 CCKTN 框架，由三部分组成。主分支是用于单视点云重建的网络。共享知识库旨在从基本类别中挖掘可转移的知识，以帮助重建新的类别。辅助分支是点云自动编码器，使知识库能够收集有关点云的丰富信息。整个 CCKTN 通过随机梯度下降进行端到端优化。

论文阅读：Zero-Shot Single-View Point Cloud Reconstruction via Cross-Category Knowledge Transferring_点云_04

图 4 将查询知识库的过程实现为注意力操作，其中知识向量同时充当键和值元素，图像（或点云）特征向量充当查询元素。

主要分支是重建网络，采用编码器-解码器架构。知识库旨在从基本类别中挖掘可转移的知识，以帮助重建新的类别对象。辅助分支是点云自动编码器，与主分支共享相同的知识库。它使知识库能够学习到更丰富的关于点云的3D知识。在训练过程中，重建网络首先将输入图像编码为特征向量。然后利用图像特征向量查询知识库，获取辅助信息向量。最后，将图像特征向量和辅助信息向量的串联解码为预测点云。自动编码器的前向过程与重建网络类似，只是输入数据是点云。此外，多样性损失被用作知识库元素的正则化，以保证其多样性。整个 CCKTN 通过随机梯度下降进行端到端优化。训练后，仅保留重建网络和知识库，而点云自动编码器被丢弃。下面我们将对以上内容进行详细介绍。

A. 知识库

我们知识库的想法受到人类如何思考新类别的启发。人类在日常生活中见过数百种不同的类别，并在大脑中积累了关于 2D 图像和 3D 形状之间的投影的丰富知识。同时，不同类别共享一些共同的组成部分，例如桌子和椅子的腿，床和桌子的平面等。在处理新类别时，人类可以参考先前学到的知识作为辅助，使他们能够轻松想象物体的形状。基于上述观察，我们模仿人类为重建模型构建知识库，从基本类别中挖掘可转移的知识，以帮助重建新的类别对象。

具体来说，知识库包含一组可学习的知识向量，表示为 M ∈ Rn×d ，其中 n 是知识向量的数量，d 表示知识向量的维度。M可以看作是一系列通用的、可在不同范畴之间迁移的概念。知识向量与 CCKTN 的其他部分并行随机初始化和优化。在前向过程中，用图像或点云特征向量进行查询，记为 z ∈ R1×d ，知识库返回所有知识向量的加权和作为辅助信息。如图4所示，我们通过注意操作[39]实现查询过程，其中知识向量M同时充当键和值元素，特征向量z扮演查询元素的角色。首先，通过三个线性变换将 M 和 z 投影到键、值和查询空间：

论文阅读：Zero-Shot Single-View Point Cloud Reconstruction via Cross-Category Knowledge Transferring_3D_05

其中 WK、WV 、Wq ∈ Rd×d 是可学习的参数。然后我们使用缩放余弦相似度计算查询和关键元素之间的响应值：

论文阅读：Zero-Shot Single-View Point Cloud Reconstruction via Cross-Category Knowledge Transferring_点云_06

其中 Ki 表示 K 的第 i 行，|| · ||2 表示 L2 归一化操作，t 是缩放因子。接下来，我们使用 softmax 操作对所有响应值进行归一化并获取注意力权重：

论文阅读：Zero-Shot Single-View Point Cloud Reconstruction via Cross-Category Knowledge Transferring_编码器_07

最后，我们将辅助信息向量计算为所有知识向量的加权和：

论文阅读：Zero-Shot Single-View Point Cloud Reconstruction via Cross-Category Knowledge Transferring_编码器_08

其中 Vi 表示 V 的第 i 行。特征向量 z 和辅助信息向量 zˆ 将被连接作为新的表示并发送到解码器。通过查询知识库，我们显式地转移从先前数据中学到的知识来补偿当前对象，这对于重建新类别非常有效。

B.辅助分支

我们采用辅助学习的想法受到[27]的启发，其中语音翻译的主要模型通过共享特征提取器并与文本翻译模型进行辅助学习获得了显着的改进。它告诉我们模型可以从其他相关任务中学习有价值的知识。在我们的方法中，我们通过采用点云自动编码器作为辅助分支来共享相同的知识库，将辅助学习应用于点云重建模型。点云自动编码器是一种用于优化特征提取器的无监督技术。通过鼓励输出点云与输入点云相似，点云自动编码器学会为点云提取良好的表示。我们相信学习到的点云自动编码器的 3D 知识可以有利于点云重建。

此外，我们发现它的架构和转发过程与单视点云重建模型类似。两者都采用编码器-解码器架构，首先将输入编码为特征向量，然后将特征向量解码为点云。不同之处在于，重建模型的输入数据是 2D 图像，而自动编码器的输入数据是 3D 点云。为此，我们可以通过共享相同的知识库并进行辅助学习，轻松地为重建模型配备自动编码器的知识。考虑到这一点，我们构建了一个带有点云自动编码器的辅助分支，与我们的重建模型并排并共享相同的知识库，如图3所示。这样，知识库可以同时接收点云自编码器的梯度和重建任务，有效地丰富了其内容。按照[2]，我们使用恢复点云和输入点云的倒角距离作为点云自动编码器辅助学习的损失：

论文阅读：Zero-Shot Single-View Point Cloud Reconstruction via Cross-Category Knowledge Transferring_编码器_09

其中 Yae 是恢复的点云，Y 是地面真实点云（也称为输入点云），pae 和 p 表示 Yae 和 Y 中的单个点。通过优化Lae，点云自编码器将丰富的3D知识嵌入到知识库中，从而有效丰富知识库并方便重建模型。作为辅助分支，点云自动编码器在训练完成后将被丢弃。

C.多样性正则化

在相同的嵌入空间中，我们认为两个向量在平行时具有最大相似性，在正交时具有最小相似性。由于知识向量是自动学习的，训练后它们可能会变得有些相似，削弱了知识库的表达能力。为了缓解这个问题，我们为知识向量设计了多样性损失正则化。形式上，多样性损失定义为所有知识向量对的绝对余弦相似度之和：

论文阅读：Zero-Shot Single-View Point Cloud Reconstruction via Cross-Category Knowledge Transferring_3D_10

其中 mi 是知识库中的第 i 个知识向量，| · |表示绝对值。众所周知，

论文阅读：Zero-Shot Single-View Point Cloud Reconstruction via Cross-Category Knowledge Transferring_编码器_11

的值位于 [0,1] 中。当它等于 0 时，mi 与 mj 正交。当等于1时，mi和mj平行，方向相同或相反。通过上述多样性损失的正则化，学习到的知识向量将趋于相互正交，有效保证了多样性，增强了知识库的表达能力。

D.目标函数

CCKTN以端到端的方式进行优化。总目标函数由三项组成：

论文阅读：Zero-Shot Single-View Point Cloud Reconstruction via Cross-Category Knowledge Transferring_编码器_12

具体来说，第一项Lrec是主分支的重建损失。按照[1]，我们优化重建点云 Yrec 与地面真值 Y 之间的倒角距离：

论文阅读：Zero-Shot Single-View Point Cloud Reconstruction via Cross-Category Knowledge Transferring_编码器_13

在Lrec的指导下，CCKTN可以学习2D图像和3D点云之间的投影规则。第二项是辅助学习分支的自动编码器损失，已在方程7中引入。值得注意的是，重建损失 Lrec 和点云自动编码器损失 Lae 具有类似的形式来测量两个预测点云与相同地面实况之间的误差，并且具有共同的目标来指导知识库学习对象的有用知识。通过共享前向过程，知识库可以接收来自两种损失的梯度，并保留来自各种类别对象的更富有成效的内容。最后一项 Ldiversity 是式8中引入的多样性损失。它充当知识向量的正则化，以防止它们相似。 λ是多样性损失的权重因子。

通过上述精心设计的目标函数，CCKTN 同时学习单视点云重建，并在其 k 中存储丰富且可转移的知识。