MAE简记
文章目录

Mask 方法
- 将图片分割成不重复的正方形patch,遮挡其中一部分patch(75%)
Encoder
- 采用ViT,但是只对可见的没有被masked的patch使用
Decoder
- 以encoder的输出+masked的patch作为输入,想要恢复原本的图像
- 解码器也是用一系列的Transformer Block组成
Target & LOSS
- 目标是恢复图像,因此使用pixel级别的loss——MSE,但是只对masked patch做
- 将图片分割成不重复的正方形patch,遮挡其中一部分patch(75%)
Encoder
- 采用ViT,但是只对可见的没有被masked的patch使用
Decoder
- 以encoder的输出+masked的patch作为输入,想要恢复原本的图像
- 解码器也是用一系列的Transformer Block组成
Target & LOSS
- 目标是恢复图像,因此使用pixel级别的loss——MSE,但是只对masked patch做