知识蒸馏
前置知识
-
Loss
现在分数-正确分数+1
例:
-
正则化 Regularization
用来防止过拟合
知识蒸馏相关
-
softmax
把分数转换为概率的一种方法,e的次方
-
hard targets 和 soft targets
-
蒸馏温度 T
在原来的softmax下,除以某个系数,让概率值相差不太大
-
知识蒸馏过程
Loss:
hard loss: 传统交叉熵
distillation loss:
9
一般需要训练好的情趣额度较高的大的教师模型,和未训练的小的学生模型进行训练