论文阅读笔记《REDE: End-to-End Object 6D Pose Robust Estimation Using Differentiable Outliers Elimination》-CFANZ编程社区

核心思想

本文提出一种端到端的基于关键点匹配的位姿估计方法，与之前关键点匹配方法不同之处在于本文提出一种可微分的异常点剔除方法，使得整个算法能够实现端到端的训练。
在这里插入图片描述
如图(a)所示，传统方法是手动设计特征提取关键点，并和模型关键点匹配，求解位姿，这类方法的局限在与关键点特征不是通过学习获取的，对于特征信息较少的物体，处理起来存在困难。如图(b)所示，直接方法是通过CNN根据输入图像回归得到物体位姿，虽然实现了端到端的训练，但这类方法的泛化能力较差。如图©所示，关键点回归的方法是利用神经网络取代人工设计特征的阶段，实现关键点的提取，再利用关键点匹配的方法进行位姿估计，但这类方法问题在于关键点提取和位姿估计是分阶段完成的，并不能实现端到端的学习。如图(d)所示，本文的方法利用一种可微分的位姿估计方法，使得关键点提取和位姿估计可以在同一个端到端的过程中实现。

实现过程

在这里插入图片描述
首先，根据输入的RGB图像和由深度图像转化而来的点云数据，进行特征提取与语义分割。语义分割采用PoseCNN中的方法，也可以直接使用真实的分割掩码。分别使用PSPNet和PointNet对RGB图像和点云数据进行特征提取，并通过平均池化的方式得到全局特征，将每个点颜色特征和几何特征以及全局特征级联起来作为一个点的特征向量（与DenseFusion采用的方法一致）。
然后，从3D模型中通过FPS方法提取 $K$ 个3D关键点 ${m_k\}_{k=1}^K$ ，其对应的场景中的关键点为 ${x_k\}_{k=1}^K$ 。由于场景中的每个点既包含了颜色信息又包含了点云信息，因此可以利用神经网络直接预测场景中的点 ${s_i\}_{i=1}^N$ 和场景中的关键点 ${x_k\}_{k=1}^K$ 之间的3D位置偏移量 $\hat{v}_{k,i}$ 。由于预测的偏移量肯定存在较大的误差，因此需要将离群点剔除，以保证预测关键点坐标的准确性。本文为每个偏移量 $\hat{v}_{k,i}$ 都预测了一个对应的置信度 $c_{k,i}$ ，并通过加权求和的方式得到预测关键点的坐标 $\hat{x}_k$ 。
在这里插入图片描述
得到场景中关键点的坐标 $\hat{x}_k$ 和模型中对应的关键点坐标 $m_k$ ，即可以通过最小二乘法求得旋转和平移矩阵

上式可以利用SVD方法求得闭式解，因此可以嵌入到端到端学习过程中。

由于RGB-D图像只能拍摄到一个视角，由于遮挡原因会存在部分无法观察到的关键点，使得网络无法准确预测他们的位置。这些潜在的异常点将会导致位姿估计效果得严重恶化。为了解决这个问题，本文提出一种最小求解组合（minimal
solvers bank）的方法来筛除异常点。给定三组匹配点就可以求得一个位姿估计结果，因此作者将所有的关键点每三个为一组分成 $C_K^3$ 组，每一组都成为一个最小求解组合，共得到 $C_K^3$ 个位姿估计结果 $\{\hat{T}_i\}$ 。根据位姿估计结果，将模型中的每个点 ${p_j\}$ 都变换到场景中，寻找到与场景中的点 $s_j$ 最接近的投影点 $p_{N(s_j)}$ ，计算二者之间的距离。将所有的点与最接近的投影点的距离累加起来，得到位姿估计 $\hat{T}_i$ 对应的估计距离 $\hat{d}_i$
在这里插入图片描述
估计距离越远则说明位姿差异越大，则该位姿 $\hat{T}_i$ 就更有可能是错误估计结果，因此可以根据估计距离 $\hat{d}_i$ 计算得到每个位姿估计对应的权重 $w_i$

对于平移矩阵 $\hat{t}$ 可以直接利用加权求和的方式计算
在这里插入图片描述
对于旋转矩阵 $\hat{R}_i$ 需要先转换成四元数 $\hat{q}_i$ ，进行加权求和，然后再进行归一化处理

则经过加权求和处理过的结果 $\hat{t}$ 和 $\hat{q}$ 即可作为位姿估计的初步结果，为提高位姿估计的精度还可以利用DenseFusion中的迭代优化算法对结果进行优化。
整个网络的损失函数包含两个部分关键点偏移损失 $Loss_{vec}$ 和位姿估计损失 $Loss_{pose}$ ，计算过程如下
在这里插入图片描述