0

点赞

收藏

分享

MAE简记

8052cf60ff5c 2022-03-16 阅读 77

标签: 深度学习 transformer 计算机视觉

MAE简记

文章目录

- - MAE简记

Mask 方法

将图片分割成不重复的正方形patch，遮挡其中一部分patch(75%)

Encoder

采用ViT，但是只对可见的没有被masked的patch使用

Decoder

以encoder的输出+masked的patch作为输入，想要恢复原本的图像
解码器也是用一系列的Transformer Block组成

Target & LOSS

目标是恢复图像，因此使用pixel级别的loss——MSE，但是只对masked patch做
将图片分割成不重复的正方形patch，遮挡其中一部分patch(75%)

Encoder

采用ViT，但是只对可见的没有被masked的patch使用

Decoder

以encoder的输出+masked的patch作为输入，想要恢复原本的图像
解码器也是用一系列的Transformer Block组成

Target & LOSS

目标是恢复图像，因此使用pixel级别的loss——MSE，但是只对masked patch做

0 条评论

关注