存在的两问题
- 在使用双流架构时,处理深度数据的子网络会产生额外计算成本和内存消耗
- 在测试期间使用深度数据可能会阻碍RGB-D显著性检测的实际应用
解决问题的方法
提出深度蒸馏器A2dele,使用网络预测和网络注意力作为两个桥梁连接 RGB 和深度模态,将深度知识从深度流传输到RGB流
- 首先,通过自适应地最小化深度流和 RGB 流生成的预测之间的差异,我们实现了对传输到 RGB 流的像素级深度知识的期望控制。
- 其次,为了将定位知识转移到 RGB 特征,我们鼓励深度流的扩张预测与 RGB 流的注意力图之间的一致性。
结果,通过嵌入A2dele,我们在测试时无需使用深度数据即可实现轻量级架构。
目标是设计一种机制,在训练期间从 RGB-D 数据中学习,并且在测试期间不使用深度数据,同时最大限度地提高性能。
1. 网络预测
将像素级深度知识自适应地转移到RGB流的预测,即自适应深度蒸馏方案。更准确地说,我们通过自适应因子选择性地最小化从深度流和 RGB 流生成的预测之间的差异。该方案实现了对传输到RGB流的像素级深度知识的期望控制。
2. 网络注意力
将显着对象的定位知识转移到RGB特征,即注意力深度蒸馏方案。(具体来说,通过扩展操作改进深度流的预测,以确保显著对象的整体覆盖,从而使扩展预测可以作为可靠的定位线索。通过鼓励 RGB 流的扩张预测和注意力图之间的一致性,可以有效地抑制 RGB 特征中的背景区域激活。
自适应和注意力蒸馏方案通过筛选出错误的深度知识来确保传递可靠的深度信息
1. Depth
深度流中的编码器基于 VGG16,其中保留了 5 个卷积块,并丢弃了最后的池化层和全连接层。然后我们选择高级特征(F3 Conv、F4 Conv 和 F5 Conv)来检测显著对象。此外,我们通过在每个级别应用感受野块 (RFB)来提高深度特征的质量,捕获适合深度流目标的全局对比度信息。最后,解码器将深度特征作为输入并进行最终预测。
2. RGB
RGB 流来利用从深度流传输的 RGB 信息和深度知识。 RGB 流与深度流具有相同的架构。唯一的区别是我们用注意力模块替换了 RFB。注意模块是轻量级的,仅包含一个 3×3 卷积层。 RGB 流的训练由深度蒸馏器 (A2dele) 监督,它由自适应深度蒸馏方案和注意力深度蒸馏方案组成
3. Adaptive Depth Distillation Scheme
网络预测:用于将像素级深度知识转移到 RGB 流的预测中。
通过最小化深度流和 RGB 流产生的预测之间的损失来训练 RGB 网络。 当我们从深度流中获得准确的预测时,该策略将有效地帮助 RGB 流区分显着对象和背景。 相反,如果由于低质量的深度图而导致预测不可靠,因此提出了一种自适应深度蒸馏方案,以确保所需的深度知识转移。 更准确地说,我们设计了一个自适应因子 λ 来调节深度流的影响。 λ 定义为:
Y :真值,超参数 α 设置为 70,以保持 λ 的范围在 0 到 1 之间。λ 与深度流的输出和真值之间的损失成反比。这表明当深度流的预测可靠时,RGB 流从深度流中学习,否则 RGB 流从真值中学习。因此,完整的损失函数写为:
其中LkL是Kullback-Leibler 发散/扩散损失(divergence loss),其中温度超参数T设置为20,LCE
是交叉熵损失。与直接强制RGB流以固定权重模拟深度流的输出相比,我们提出的自适应深度蒸馏方案允许RGB流选择性地从深度流中吸收有用的深度信息。与直接强制RGB流以固定权重模拟深度流的输出相比,我们提出的自适应深度蒸馏方案允许RGB流选择性地从深度流中吸收有用的深度信息。
4. Attentive Depth Distillation Scheme
注意力蒸馏方案更进一步:我们选择网络注意力作为将定位知识转移到 RGB 特征,通过鼓励深度流的预测与 RGB 流中的注意力图之间的一致性来实现的。为了最小化不一致性,RGB 流必须学习一个注意力图来接近深度流的预测。随着注意力图质量的提高,RGB 特征的干扰因素逐渐被抑制,从而使 RGB 流向显着对象的准确定位迈进。然而,当深度流推断显着对象检测不完整时,这种策略可能会导致分割结果不理想。为了确保可靠的定位知识,我们从深度流中扩大预测的覆盖范围,以通过扩张操作提高其有效性,如图 2(c) 所示。 Dilation 是通过使用 max-pooling 操作实现的,表示为:
通过覆盖更完整显著对象的区域,深度流的扩张预测可以作为更好的定位线索,并有助于增强RGB特征。注意力深度蒸馏方案可以定义为:
代表RGB流中的第i个注意图。N表示级别的总数设置为3。通过最小化损失
可以抑制来自显著对象外部的响应,从而将响应集中在显著区域上。