论文地址:Masked Siamese Networks for Label-Efficient Learning
论文代码:https://github.com/facebookresearch/msn
1、摘要
本文提出了 Masked Siamese Networks (MSN),这是一种用于学习图像表示的自监督学习框架。 该方法将包含随机掩蔽补丁的图像视图的表示与原始未掩蔽图像的表示相匹配。 这种自监督的预训练策略在应用于 Vision Transformers 时具有可扩展性,因为只有未屏蔽的补丁由网络处理。 因此,MSN 提高了联合嵌入架构,同时产生高语义的表示在Low-shot图像分类上效果好。 例如,在ImageNet-1K,只有 5,000 个带注释的图像,本文的MSN 模型实现了72.4% 的 top-1 准确率,加上 1% 的 ImageNet-1K 标签,MSN达到了 75.7% 的 top-1准确性。
2、算法流程
给定一个图像的两个视图(anchor view和target view),MSN随机地屏蔽一个视图(anchor view)中的补丁,而保持另一个视图(target view)不变。目标是训练一个用视觉转换器(ViT)参数化的神经网络编码器,以为两个视图的输出相似的嵌入。在这个过程中,MSN不会预测掩蔽补丁(patchify&mask),而是通过确保掩蔽输入的表示与未掩蔽输入的表示匹配,在表示级别隐式地执行去噪步骤。
上图中同一张图像的两个视图(采用一些数据增强方法生成的):anchor view和target view,然后对anchor view经过patchify&mask后传入Vision transformer处理后输入到encoder:,上下两个编码器输出分别为:锚表示和目标表示,这两个表示是匹配的。这个编码器中一般具有一个可以学习的参数。而prototypes是通过在anchor和target的基础上学习到的软表示。然后再分别计算z和z+和prototypes的概率值,再将概率值通过简单的对比损失进行学习。
这个ViT是采用经典的:
注:只是简单记录一下这篇文章的大致思路,具体请参考原文!!!