0
点赞
收藏
分享

微信扫一扫

AAAI2022-ShiftVIT: When Shift Operation Meets Vision Transformer

论文:【AAAI2022】When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Mechanism
代码:https://link.zhihu.com/?target=https%3A//github.com/microsoft/SPACH

B站作者讲解视频:https://www.bilibili.com/video/BV1a3411h7su

研究动机

这个工作是使用一个非常简单的操作取代 attention,取得了非常好的效果。首先介绍一下论文的motivation。作者认为 Tranformer 取得成功的关键在于两个特性:

  • Global:快速的全局建模能力,每个 token都能和其它的 token 发生关联

  • Dynamic:为每个样本动态的学习一组权重

为此,作者提出了 shift block,非常简单,本质就是对部分特征进行简单的移位操作来代替 self-attention 。

方法介绍

如下图所示,标准的 Transformer block 就是先用attention处理,再用FFN处理。作者提出用 shift block 来代替 attention。这个模块非常简单,就是将输入维度为CHW的特征,沿C这个方向取出来一部分,然后平均分为4份,这4份特征分别沿 左、右、上、下 进行移动,剩下部分的特征保持不变。

在作者的实现中,shift的步长设置为1个像素,同时,选择 1/3 的通道进行 shift (1/12的通道左移1个像素,1/12的通道右移1个像素,1/12的通道上移1个像素,1/12的通道下移1个像素)。该模块的 pytroch代码如下,可以看出来,这个模块计算非常简单,基本没有参数。

在网络架构上, 该方法对标的是 swin transformer,除了 attention 模块用 shift block 替代,其它部分是完全一样的。

实验结果

下表只列出ImageNet图像分类上的实验结果,可以看出,直接替换性能会下降,但是增加模块的 Shift-T模型性能上升了,但是 S 模型和 B 模型性能会略微下降。作者还做了目标检测、语义分割的实验,得出结论是,性能和 swin 是差不多的,但是当模型比较小的时候,ShiftVIT会更有优势。

消融实验作者也分析了很多,这里只介绍 shift block 唯一个参数的实验,那就是 shifted channel 的比例,可以看看出,比例太少时,性能会不如 swin-T。当设置为 1/3 时,性能是最好的。

总结

|关于深延科技|

深延科技成立于2018年1月,中关村高新技术企业,是拥有全球领先人工智能技术的企业AI服务专家。以计算机视觉、自然语言处理和数据挖掘核心技术为基础,公司推出四款平台产品——深延智能数据标注平台、深延AI开发平台、深延自动化机器学习平台、深延AI开放平台,为企业提供数据处理、模型构建和训练、隐私计算、行业算法和解决方案等一站式AI平台服务。 

举报

相关推荐

0 条评论