论文阅读笔记《Learning Deep Network for Detecting 3D Object Keypoints and 6D Poses》-CFANZ编程社区

核心思想

本文提出一种基于3D关键点的位姿估计方法，其思想在于利用一张RGB图像作为参考图像，通过将测试图像和参考图像之间进行关键点匹配，再利用Kabsch算法得到两幅图像之间的位姿变换，进而根据参考图像的位姿得到测试图像的位姿。与其他的位姿估计方法不同，本文在训练过程中只需要已知相对位姿变换的一对图片（每次训练需要一对，整个训练过程还是需要许多对图像的）。相对于需要大量的已知位姿的图像数据集，只得到两张相对位姿已知的图像是比较容易的，比如用两个位姿已知的相机拍摄同一个物体，就能根据相机的位姿变化，得到两张图像之间的相对位姿。

实现过程

在这里插入图片描述
首先，利用一个ResNet主干网络从图像中提取特征信息，并使用FPN网络得到若干个可能存在目标物体的感兴趣区域（ROI）。将ROI分别输入到两个网络分支中，一个分支采用Faster-RCNN的结构用于实现目标检测输出边界框与类别，另一个分支则是输出关键点的概率图和深度信息。关键点检测分支输出 $N + 1$ 个通道的预测图，其中 $N$ 表示预测关键点的个数，前 $N$ 个通道的特征图分别表示每个像素点 $x_i,y_i)$ 是第 $i$ 个关键点的概率 $P_i$ ，则关键点的预测坐标为
在这里插入图片描述
最后一个通道的特征图表示每个像素点上预测的深度值。为了对关键点检测分支进行训练，本文提出了五个损失函数：

跨视野连续性损失（Cross-view Consistency Loss）。该损失用于约束两张图像的关键点之间的连续性，图像 $I$ 中的每个关键点 $(x, y, z)$ 经过两幅图之间的相对位姿变换都应映射到 $I^{'}$ 中的匹配点 $(x^{'}, y^{'}, z^{'})$ ，反之亦然。则一对匹配点之间的关系如下

其中 $T$ 表示图像之间相对位姿变换， $K$ 表示相机内参矩阵。成对的匹配点应映射到相机空间中的相同的位置：

则损失函数定义为

$S_{L1}$ 表示平滑的L1损失函数。
深度回归损失（Depth Regression Loss），为了能够预测3D关键点，需要对深度信息进行预测。在已知两幅图像之间的位姿变换矩阵和图像之间的匹配点的条件下，可以根据对极几何原理计算深度信息，计算方式如下

其中 $e=[x,y,1]^T$ , $e'=[x',y',1]^T$ 表示一对匹配点的2D齐次坐标， $e^{\wedge }$ 表示斜对称矩阵， $d, d^{'}$ 分别表示两个匹配点的深度。根据公式1利用最小二乘法，可以计算得到 $d^{'}$ ，然后根据公式2可以计算得到 $d$ 。得到真实深度信息后，就可以对预测深度进行监督
显著度损失（Distinctiveness Loss），该损失函数是鼓励从视觉显著的位置选取关键点。为实现该目标，本文首先得到每个点的何塞矩阵（Hessian matrix），何塞矩阵表示该像素点与其相邻像素点之间的变化程度。如果某个点其3*3的邻域内的何塞矩阵的行列式为最大值，则这个点被标记blob-like点

考虑到预测的3D关键点可能出现在物体被遮挡的区域，为了避免与跨视野连续性损失出现冲突，本文假设至少有一半的关键点是可见的，因此只对一半的关键点进行显著性约束，则损失函数为

其中 $\mathbb{M}$ 表示排名前 $N / 2$ 的关键点， $P_i(\hat{x}_i,\hat{y}_i)$ 表示 $(\hat{x}_i,\hat{y}_i)$ 为关键点的概率值。
分离损失（Separation Loss），该损失鼓励关键点之间的距离超过参数 $\delta$ ，也就是说会对相邻两个关键点之间的距离小于 $\delta$ 的点进行惩罚，损失函数为
变换恢复损失（Transformation Recovery Loss），该损失要求根据匹配点估计得到的相对位姿变换 $R^{'}$ 和 $t^{'}$ 与真实的相对位姿变换 $R$ 和 $t$ 应该尽可能相近，本文采用测地距离损失函数