Abstract

图像分割在单个图像块的层次上通常是模糊的，需要上下文信息才能达成一致。本文介绍了一种用于语义切分的转换模型 Segmenter。与基于卷积的方法相比，我们的方法允许在第一层和整个网络中对全局上下文进行建模。我们以最近的视觉转换器（ViT）为基础，将其扩展到语义分割。为此，我们依赖于与图像块对应的输出嵌入，并使用逐点线性解码器或掩码 Transformer 解码器从这些嵌入中获取类标签。

我们利用预先训练的图像分类模型，并表明我们可以在中等大小的数据集上对其进行微调，以进行语义分割。线性解码器已经可以获得很好的结果，但是通过生成类掩码的掩码转换器可以进一步提高性能。我们进行了广泛的消融研究，以显示不同参数的影响，尤其是对于大型模型和小面积贴片，性能更好。Segmenter在语义分割方面取得了很好的效果。它在 Ade20K 和 Pascal 上下文数据集上都优于最先进的技术，在城市景观数据集上具有竞争力。

创新点

1）提出了一种基于 Vision Transformer 的语义分割的新颖方法，该方法不使用卷积，通过设计捕获上下文信息并优于基于 FCN 的方法；

2）提出了一系列具有不同分辨率级别的模型，允许在精度和运行时间之间进行权衡，从最先进的性能到模型具有快速推理和良好性能的模型；

3）提出了一种基于 Transformer 的解码器生成类掩码，其性能优于我们的线性结构，并且可以扩展以执行更一般的图像分割任务；

4）证明了此方法在 ADE20K 和 Pascal Context 数据集上产生了最先进的结果，并且在Cityscapes 上具有竞争力。

【图像分割】Segmenter: Transformer for Semantic Segmentation（持续更新ing）

Abstract

创新点

Method