R语言 |一些常用的数据整理的技巧（二）-CFANZ编程社区

Abstract

翻译：

我们研究了实现网络压缩的特征蒸馏方法的设计方面，并提出了一种新颖的特征蒸馏方法，其中蒸馏损失被设计为在各个方面之间产生协同作用：教师转换、学生转换、蒸馏特征位置和距离函数。我们提出的蒸馏损失包括一个具有新设计的边界ReLU的特征转换，一个新的蒸馏特征位置，以及一个部分L2距离函数，以跳过给学生网络压缩带来不利影响的冗余信息。在ImageNet上，我们提出的方法使用ResNet50达到了21.65%的top-1错误率，优于教师网络ResNet152的性能。我们的方法在各种任务中进行了评估，如图像分类、目标检测和语义分割，并在所有任务中实现了显著的性能提升

Introduction

Hint learning没有很好地利用特征蒸馏，更多的提点仍来自于输出蒸馏

翻译：

在FitNets之后，提出了一些变种的特征蒸馏方法，具体如下。在文献[30, 28]中提出的方法将特征转换为具有降维的表示，并将其传输给学生网络。尽管维度降低了，但据报道，提取的特征表示确实导致了性能的提升。最近提出的方法（FT [13]、AB [7]）旨在增加蒸馏中传输的信息量。FT [13]使用自编码器将特征编码为‘因子’，以减轻信息泄漏。AB [7]专注于仅传输特征的符号的网络激活。这两种方法通过增加传输的信息量来展现出更好的蒸馏性能。然而，FT [13]和AB [7]会改变教师网络的特征值，这进一步为性能的提升留下了空间

翻译：

本文通过对各种设计方面的调查，包括教师变换、学生变换、蒸馏特征位置和距离函数，进一步改进了特征蒸馏的性能，提出了一种新的特征蒸馏损失。我们的方法旨在从特征中传输两个因素。第一个目标是经过ReLU后的特征响应的幅度，因为它携带了大部分的特征信息。第二个是每个神经元的激活状态。最近的研究[20, 7]表明，神经元的激活强烈地代表了网络的表达能力，并且在蒸馏中应予以考虑。为此，我们提出了一个边缘ReLU函数，将蒸馏特征位置改变到ReLU的前面，并使用一个部分L2距离函数来跳过不必要信息的蒸馏。提出的损失显著提高了特征蒸馏的性能。在我们的实验中，我们评估了我们的方法在各个领域的性能，包括分类（CIFAR [15]，ImageNet [23]），目标检测（PASCAL VOC [2]）和语义分割（PASCAL VOC）。如图1所示，在我们的实验中，所提出的方法显示出比现有的最先进方法甚至教师模型更优异的性能

总结：

第一个是经过ReLU激活之后的特征响应的大小

第二个是每个神经元的激活状态。

提出了一个margin ReLU激活函数，并且利用一个局部的L2正则化进行距离度量，以此来跳过对非必要信息的蒸馏