0
点赞
收藏
分享

微信扫一扫

深度学习-知识蒸馏

月孛星君 2022-03-11 阅读 102
深度学习

第一章 综述

知识蒸馏1

知识蒸馏的目的是将大模型变成小模型,将小模型部署到移动终端设备上。

知识蒸馏

1.轻量化网络

轻量化网络1646222515171

2.知识的表示与迁移

hard targets和soft targets:hard_targets和soft_targets的对比

显然, soft targets包含更多的“知识”和“信息”, 像谁, 不像谁, 有多像,有多不像, 特别是非正确类别概率的相对大小(驴和车)。

3.蒸馏温度T

蒸馏温度T

把比较硬的soft targets变得更软,信息暴漏的更明显

例如:

知识蒸馏例子

第二章 知识蒸馏

1.过程

知识蒸馏过程1

教师网络进行预训练,生成soft labels,学生网络可能训练,也可能没有训练,生成了预测的soft predictions, 将教师网络的labels和学生的predictions做一个Loss, 同时学生网络也会生成一个hard prediction,它与真实标签的hard label做一个Loss(如上上图所示)。

1646224418659

2.实验结果

1646224577312

3.知识蒸馏的应用场景

模型压缩

优化训练,防止过拟合(潜在的正则化)

无限大、无监督数据集的数据挖掘

少样本、零样本学习

4.迁移学习和知识蒸馏

迁移学习指的是领域之间的迁移,例如将猫狗的识别迁移到医学图像的识别上去;知识蒸馏指的是模型之间的蒸馏。

第三章 知识蒸馏发展趋势

发展趋势

举报

相关推荐

0 条评论