Early Convolutions Help Transformers See Better
Abstract
VIT优化较为困难,对参数选择比较敏感。
网络
传统多层3*3conv,每层后加BN、ReLU,到encoder前时控制与原ViT输入相同
虽然ViT论文中也有这种结构,但论文中说明这种结构的分数是要略微逊色的,但这篇论文证明了这种结构可以更容易优化。
实验结果
- 用CNN代替patch结构会使:
- 收敛更快
- 不再局限于SGD(SGC和AdamW的差距较小)
- 对超参数不那么敏感
- weight decay是不能给BN和bias加的