文章目录
1. 四个问题
-
解决什么问题
提升人脸分类准确度 -
用了什么方法解决
提出了一种新的损失函数。AM-Softmax loss
目的是进一步增大类间差异,缩小类内差异 -
效果如何
我们在LFW和Megaface数据集下的实验表明,我们的additive margin softmax loss
始终比使用相同网络架构和训练数据集的当前最先进方法表现更好 -
还存在什么问题
如何自动确定margin以及如何合并特定于类或特定于样本的间隔然是个开放的问题,值得研究
2. 论文简介
1. Introduction
- 人脸认证广泛应用于金融、军事、公安等领域的身份认证
- 目前,大多数人脸验证模型均是建立在深卷积神经网络的基础上,并由分类损失函数[18、20、19、9]、度量学习损失函数[16]或两者共同监督[17、13]
- contrastive loss[17]或triplet loss[16]等度量学习损失函数通常需要精心设计样本挖掘策略,而最终的性能对这些策略非常敏感,因此越来越多的研究者将注意力转移到基于改进的分类损失函数来构建人脸验证模型[20,19,9]。
-
- 目前流行的深度人脸识别分类损失函数大多基于广泛使用的Softmax loss。SoftMax loss通常擅长优化类间差异(即分离不同的类),但不擅长减少类内差异(即使同一类的特性紧凑)。
- 为了解决这一问题,提出了许多新的损失函数来最小化类内差异。
- [20]建议增加一个正则化术语来惩罚特征到中心的距离。
- 在[19,12,15]中,研究人员提议使用一个尺度参数来控制Softmax loss 的“容忍力”[2],从而对分离良好的样本产生更高的梯度,以进一步缩小类内方差。
- 在[9,10]中,作者引入了概念上很吸引人的角度间隔,以推动分类边界更接近每个类的权重向量。
- [9]也为使用分类损失函数训练度量学习任务的深层模型提供了理论指导。
- [6,12,15]还通过合并不同类型的间隔来改善SoftMax loss。
-
- 在这项工作中,我们提出了一种新的更具解释性的方法,将角度间隔引入到softmax loss中。我们通过cosθ−m制定了一个额外的间隔,它比[9]简单,并且产生更好的性能。从方程(3)可以看出,m乘以[9]中的目标角 θ y i θ_{yi} θyi ,所以这种类型的边界以乘法的方式合并。由于我们的间隔是从cosθ减去的一个标量,我们称损失函数为Additive Margin Softmax(AM-SoftMax)。
- 对LFW BLUFR协议[7]和MegaFace[5]的实验表明,在相同的网络结构下,我们的损失函数比目前最先进的方法得到了更好的结果。
2. Preliminaries
softmax loss
A-softmax loss
3. Additive Margin Softmax
直观理解就是分得更宽(类内紧凑,类间更宽)
3. 参考链接
原文:https://arxiv.org/abs/1801.05599
AMSoftmax论文翻译——中英文对照+标注总结
人脸识别中的常见softmax函数总结(A-Softmax,AM-Softmax,ArcFace等)
人脸识别的LOSS(上)
人脸识别的LOSS(下)
从Softmax到AMSoftmax(附可视化代码和实现代码)
Deep Metric Learning及其形式(附Pytorch代码)
4. 收获
- 设计损失函数有助于提升分类准确率
- 常见的有度量学习损失函数(contrastive loss或triplet loss)和基于改进的分类损失函数?
- 增大类间差异,减少类内差异(不同类要分得远,同类要紧凑)