0
点赞
收藏
分享

微信扫一扫

Android tinker升级之路分析

在这里插入图片描述

目录

简介

题目:《RSPrompter: Learning to Prompt for Remote Sensing Instance Segmentation based on Visual Foundation Model 》,基于视觉基础模型的遥感实例分割提示学习

日期:2023.6.28

单位:北航、北京数字媒体重点实验室、虚拟现实技术与系统国家重点实验室、上海人工智能实验室

论文地址:https://arxiv.org/abs/2306.16269

GitHub:https://github.com/KyanChen/RSPrompter

陈科研

个人主页:https://kyanchen.github.io/
在这里插入图片描述
谷歌学术
在这里插入图片描述
其他作者


  • 摘要
    利用大量的训练数据(SA-1B), Meta AI Research提出的基础分段任意模型(SAM)显示出卓越的泛化和zero-shot能力。尽管如此,作为一种与类别无关的实例分割方法,SAM在很大程度上依赖于涉及点、框和粗粒度掩码的先前手动指导。此外,其在遥感图像分割任务上的性能还有待充分的探索和论证。在本文中,我们考虑设计一种基于SAM基础模型,结合语义分类信息的遥感图像实例自动分割方法。受prompt learning的启发,我们提出了一种学习生成合适的Prompt来作为 SAM 的输入。这使得SAM能够为遥感图像产生语义上可辨的分割结果,我们将其称为RSPrompter。我们还基于SAM社区的最新发展,为实例分割任务提出了几个正在进行的衍生工具,并将它们的性能与RSPrompter进行比较。在WHU building、NWPU VHR-10和SSDD数据集上的大量实验结果验证了我们提出的方法的有效性。

目标

  • 背景
    由于其交互式框架,SAM 需要提供先验的Prompt,例如点、框或掩模来表现为一种类别无关分割方法, 如下图(a)所示。显然,这些限制使 SAM 不适用于遥感图像的全自动解译。
    在这里插入图片描述

此外,我们观察到遥感图像场景中的复杂背景干扰和缺乏明确定义的物体边缘对 SAM 的分割能力构成重大挑战。SAM 很难实现对遥感图像目标的完整分割,其结果严重依赖于prompt类型、位置和数量。在大多数情况下,精细的手动prompt对于实现所需效果至关重要,如上图(b)所示。这表明 SAM 在应用于遥感图像的实例分割时存在相当大的限制。

  • 目标动机
    增强SAM在图像分割任务上的能力。每一组prompt能够得到一个的实例化mask,若能自动生成多个与类别相关的prompt,SAM 的解码器就能够产生带有类别标签的多个实例级掩码。由此,本文提出了RSPrompter,用于学习如何生成可以增强 SAM 框架能力prompt。
    其中,
    1. 类别相关的prompt来源:提取SAM ViT backbone的中间层的特征,输入一个轻量级的特征聚合器
    2. 生成的prompt的输出形式为prompt embeddings(不生成坐标,作者认为生成坐标会限制优化空间;还避免了从高维到低维再返回到高维特征的梯度流的障碍,即从高维图像特征到点坐标,然后再到位置编码。)

工作重点

  1. 一种自动化的实例分割方法同时融入语义信息
  2. 基于SAM的prompt工程
  3. 对SAM社区进行了研究,就SAM的实力分割任务提出了一些变体
  4. 实验方面,使用了3个遥感数据集进行了验证(在数据量、数据类别、模态上都有一些差别)

方法

除了本文提出的RSPrompter之外,还介绍了另外三种基于SAM的实例分割方法进行比较,如图3 (a)、(b)和©所示,以评估它们在遥感图像实例分割任务中的有效性,并为未来的研究提供启发。这些方法包括:外部实例分割头、对掩码类别进行分类、使用检测到的目标框,分别对应图3 (a)、(b)、( c )。在接下来的部分中,我们将分别将这些方法称为SAMseg、SAM-cls和SAM-det。
在这里插入图片描述

  • SAM产生mask的过程表达式:

在这里插入图片描述

  • SAM-seg

在这里插入图片描述

  • SAM-cls

在这里插入图片描述

  • SAM-det

在这里插入图片描述


  • RSPrompter

在这里插入图片描述

图像通过冻结的SAM图像编码器处理生成Fimg ,{Fi}是从backbone中抽取的一些富含语义信息的特征(中间层);{Fi}通过一个轻量级的特征聚合器Φaggregator,得到一个稠密的特征图Fagg ;Fagg输入prompter,生成多组prompt imbedding(Tj)以及对应的类别(cj);最后Tj输入mask decoder中生成实例mask

  • Feature Aggregator

在这里插入图片描述

在这里插入图片描述

对ViT backbone中提取的各种中间特征层的语义特征Fi进行下采样:64×64×1280–>32×32×32;通过残差连接使信息可以流动;最后通过融合卷积ΦFusionConv得到稠密特征Fagg

两种不同类别的prompter

  • Anchor-based Prompter,锚点式

在这里插入图片描述

使用RPN head对稠密特征中的目标进行召回,生成一些proposal;proposal通过RoI Pooling生成一些视觉向量,再通过3个感知头:语义头、定位头和提示头。用于定于目标类别、建立生成的提示表示与目标实例掩码之间的匹配标准(IoU)、生成prompt imbedding

在这里插入图片描述

在生成prompt imbedding的过程中通过了一个sin变换,目的是为了对齐SAM的prompt encoder和生成的prompt imbedding的空间(原始的prompt encoder是一种高频的信号,而通过mlp生成的prompt是一种平稳的信号,使用sin函数将低频映射至高频,使之对齐两个表达空间)

Loss Function:该模型的损失包括RPN网络的二元分类损失和定位损失,语义头的分类损失,定位头的回归损失以及冻结的SAM掩码解码器的分割损失。总损失可以表示为:
在这里插入图片描述

  • Query-based Prompter,查询式

在这里插入图片描述
在这里插入图片描述

Loss Function:

训练过程主要涉及两个关键步骤:

(1)N个mask于k个ground-truth进行匹配(使用匈牙利匹配算法)

在这里插入图片描述

(2)监督训练(主要包括多类分类和二进制掩码分类)
在这里插入图片描述

实验

  • 数据集

    1. WHU building extraction dataset:1 class, RGB,5K, training
    2. NWPU VHR-10 dataset:10 clas, RGB,600 training
    3. SAR Ship Detection dataset:1 class, SAR,900 training
  • 评估指标:mAP(box & mask)

  • Comparison with the SOTA: WHU
    在这里插入图片描述

  • Comparison with the NWPU:
    在这里插入图片描述

  • Comparison with the SOTA: SSDD
    在这里插入图片描述

观察Tab1-3:(1)AP显著提升;(2)在小数据集上和不同领域(domain)有强泛化性;(3)基于anchor和query的prompter在不同数据集上有不同的表现(中、大型数据集上query好于anchor)


  • 消融实验

总结

  • conclusion
    在本文中,我们介绍了RSPrompter,这是一种用于遥感图像实例分割的prompt learning方法,利用了SAM基础模型。RSPrompter的目标是学习如何为SAM生成prompt输入,使其能够自动获取语义实例级掩码。相比之下,原始的SAM需要额外手动制作prompt,并且是一种类别无关的分割方法。RSPrompter的设计理念不局限于SAM模型,也可以应用于其他基础模型。基于这一理念,我们设计了两种具体的实现方案:基于预设锚点的RSPrompter-anchor和基于查询和最优传输匹配的RSPrompter-query。此外,我们还调查并提出了SAM社区中针对此任务的各种方法和变体,并将它们与我们的prompt learning方法进行了比较。通过消融实验验证了RSPrompter中每个组件的有效性。同时,三个公共遥感数据集的实验结果表明,我们的方法优于其他最先进的实例分割技术,以及一些基于SAM的方法。

  • discussions

    1. decoder的计算量大:考虑重新设计head
    2. 基于query的prompter直接、轻量且在中大型数据集上表现更好,但是收敛速度慢,考虑优化
    3. 当数据集较小时,在大模型上上使用pompt learning会有比较好的表现
举报

相关推荐

0 条评论