1 摘要

DD3D 结合了伪激光雷达方法（深度预训练缩放）和端到端方法（简单性和泛化性能）的优点。与伪激光雷达方法相比，DD3D仅需简单的 depth 预训练和 detection 微调训练，伪激光雷达方法需要额外的深度微调步骤，并且往往过度拟合深度误差。

引言略。

2 相关工作

主要介绍了单目3D目标检测、端到端单阶段检测、Pseudo-Lidar (PL)方法、单目深度估计等。本文主要使用了end-to-end框架、借助了单目深度估计的预训练方法。

3 方法

Architecture

在这里插入图片描述
每个检测头由3个检测网络组成，其中3D检测头如下

3D detection head: $\mathbf{q}=(q_w,q_x,q_y,q_z)$ , $z_{\{c,\,p\}}$ , $\mathbf{o}=(\Delta_u,\Delta_v)$ , $\delta=(\delta_W,\delta_H,\delta_L)$ , $\beta_\text{3D}$ .

这里需要提到一点，作者在训练过程中缩放图像时，并未对ground truth进行同等缩放，而是对相机的内参矩阵进行调整，如下所示：

$\mathbf{K}=\left[\begin{array}{lll} r_{x} & r_{y} & 1 \end{array}\right]\left[\begin{array}{ccc} f_{x} & 0 & p_{x} \\ 0 & f_{y} & p_{y} \\ 0 & 0 & 1 \end{array}\right]$
其中， $r_x$ 与 $r_y$ 为缩放因子， $\mathbf{K}$ 为新的相机内参矩阵。
对于3D边界框回归，作者使用[59]中描述的解耦L1损失：
$\mathcal{L}_{3 \mathrm{D}}\left(\mathbf{B}^{*}, \hat{\mathbf{B}}\right)=\frac{1}{8}\left\|\mathbf{B}^{*}-\hat{\mathbf{B}}\right\|_{1}$