0
点赞
收藏
分享

微信扫一扫

Early Convolutions Help Transformers See Better

兮城 2022-05-02 阅读 36

Early Convolutions Help Transformers See Better

Abstract

VIT优化较为困难,对参数选择比较敏感。

网络

传统多层3*3conv,每层后加BN、ReLU,到encoder前时控制与原ViT输入相同

虽然ViT论文中也有这种结构,但论文中说明这种结构的分数是要略微逊色的,但这篇论文证明了这种结构可以更容易优化。

实验结果

  • 用CNN代替patch结构会使:
  1. 收敛更快
  2. 不再局限于SGD(SGC和AdamW的差距较小)
  3. 对超参数不那么敏感
  • weight decay是不能给BN和bias加的
举报

相关推荐

0 条评论