【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络

【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络_小样本语义分割

精选精析：

【论文原文】： Prior Guided Feature Enrichment Network for Few-Shot Segmentation (当前引用次数：184)

【论文代码】： https://github.com/Jia-Research-Lab/PFENet/ (当前Star：231)

获取地址：https://ieeexplore.ieee.org/abstract/document/9154595

博主关键词： 小样本学习，语义分割，先验引导，特征富集

推荐相关论文：

【论文速递】TPAMI2022 - 小样本分割的整体原型激活

- 关联创新点：一种无需训练的派生基类先验表示的方案

【作者信息】： Zhuotao Tian, Student Member, IEEE, Hengshuang Zhao, Member, IEEE, Michelle Shu, Student

Member, IEEE, Zhicheng Yang, Member, IEEE, Ruiyu Li, Member, IEEE, Jiaya Jia, Fellow, IEEE

【作者单位】：

• Z. Tian (tianzhuotao@link.cuhk.edu.hk), H. Zhao and J. Jia are with
the Department of Computer Science and Engineering, The Chinese
University of Hong Kong. 
• M. Shu is with Johns Hopkins University.
• Z. Yang and R. Li are with SmartMore.
• Corresponding Author: H. Zhao.

摘要精析：

由于训练类的高级语义信息使用不当，查询目标与支持目标的空间不一致，目前的小样本分割框架仍然面临着对未见类的泛化能力降低的挑战。为了缓解这些问题，PFENet提出了先验引导特征富集网络(PFENet)。它包括:(1)一种无需训练的先验掩码生成方法，不仅保留了泛化能力，还提高了模型性能;(2)特征富集模块(FEM)，通过自适应地用支持特征和先验掩码丰富查询特征来克服空间不一致性。在PASCAL-5i和COCO上的大量实验证明，所提出的先验生成方法和FEM方法都显著改进了基线方法。PFENet在没有效率损失的基础上，性能超出最先进的方法很多。而且，PFENet模型甚至可以推广到无支持样本的情况。代码可以在https://github.com/Jia-Research-Lab/PFENet/上找到。

关键词 -小样本分割，小样本学习，语义分割，场景理解。

简介精析：

如果没有足够的完全标注的数据，或者在处理没有见过的类别时，已有深度学习框架的性能会迅速恶化。即使提供了额外的数据，模型调优仍然需要消耗大量的时间和资源。为了解决这个问题，需要设计模型快速适应新的类别，由此提出了小样本语义分割[33]，并将模型输入数据分为support(支持)集和query(查询)集。如图1所示，首先将support集和query集的图像发送到骨干网提取特征。可以通过为分类器生成权重[33]，[41]，余弦相似度计算[5]，[45]，[23]，或卷积[15]，[54]，[49]，[9]，[1]来处理得到的特征并生成最终的预测。

【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络_小样本语义分割_小样本学习

论文中指出现有的小样本分割方法普遍存在的两个问题：

1.由于滥用高层特征而导致的泛化性能损失

常规语义分割模型在很大程度上依赖于具有语义信息的高级特征。CANet[54]的实验表明，在小样本模型的特征处理过程中，简单地添加高级特征会导致性能下降。在few-shot设置中利用语义信息的方法并不简单。

PFENet使用ImageNet[32]预训练的query和support图像的高层特征来为模型生成“先验”。这些先验值有助于模型更好地识别query图像中的目标。由于之前的先验的过程无需训练，因此尽管在训练过程中经常使用已见类别的高层语义信息，但所得到的模型并没有失去对未见类别的泛化能力。

2.query和support样本之间的空间不一致性

由于样本有限，每个support目标对象的规模和姿态可能与其对应query目标对象有很大差异，我们称之为空间不一致性。

PFENet提出了一种新的特征富集模块(Feature Enrichment module, FEM)来自适应地充实query特征。论文中的消融研究表明，仅仅结合多尺度来解决空间不一致性是次优的，FEM提供了有条件的特征选择，有助于保留跨越不同尺度传递的重要信息。实验证明FEM的性能优于HRNet[44]、PPM[60]、ASPP[4]和GAU[53]等多尺度结构。

基于ResNet-50的PFENet仅包含10.8 M可学习参数，在PASCAL-5i[33]和COCO[21]基准测试中，分别以15.9和5.1 FPS(1-shot和5-shot设置)获得了SOTA结果。此外，论文中还将模型应用于没有标记数据可用的 zero-shot场景来证明有效性。

PFENet模型精析：

【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络_小样本语义分割_卷积_02

先验生成模块：

重要动机说明：

先验掩膜生成方法：

PFENet试图将ImageNet[32]预训练模型中提取的support高级语义特征和support mask转换为一个先验掩码，该掩码能够表示query特征图上每一个像素属于目标类的概率。训练时，骨干网络参数固定为PANet[45]，CANet[54]中的参数。因此，先验生成过程不偏向训练类C_{train}，并在对未见的测试类C_{test}进行评估时保持类不敏感。I_Q, I_S表示输入query和support图像，M_S表示二进制支持掩码，F表示骨干网，X_Q, X_S表示高级query和support特征，然后在公式(1)中，support高层语义特征X_S矩阵乘二进制的support mask进行背景去除：

【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络_小样本语义分割_人工智能_03

矩阵乘采用的是哈达玛积（Hadamard product）对形状相同的矩阵进行运算，并产生相同维度的第三个矩阵。骨干网F的输出用ReLU函数处理。

先验掩膜计算公式：

PFENet计算support和query特征之间像素级的余弦相似度来生成先验掩膜Y_Q:

【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络_小样本语义分割_深度学习_04

【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络_小样本语义分割_小样本学习_05

其中x_q和x_s分别是query和suppot特征上对应像素位置的特征向量，即计算query特征上每个像素位置和support特征上所有像素位置的向量的余弦相似度，然后保留最大的那个作为Y_Q的特征值c_q。

【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络_小样本语义分割_深度学习_06

然后接一个min-max归一化处理YQ，将值归一化到0到1之间。epsilon设置为 1e − 7防止除0。

特征富集模块：

【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络_小样本语义分割_语义分割_07

重要动机说明：

特征富集方法：

如图4所示，特征富集模块(FEM)将query特征、先验掩码和扩张到对应尺度后的support特征作为输入，输出带有来自support特征的丰富信息的精炼后的query特征。

步骤1 - Inter-Source Enrichment：

将输入投影到不同的尺度上，然后在每个尺度上query特征分别与support特征和先验掩码进行交互。

【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络_小样本语义分割_语义分割_08

这个简单，如图4，就是将之前提取的特征变换尺度后（C）串联叠加到一起。i ∈ {1, 2, …, n}代表n个不同的尺度。紧接着用1×1卷积，产生c = 256个输出通道的合并后的特征。

步骤2 - Inter-Scale Interaction：

跨尺度的交互，在不同尺度合并的query和support特征之间选择性地传递重要信息。

图4中圈出的M表示跨尺度合并模块M，该模块通过选择性地将上一层的辅助特征X^{{Aux}中有用的信息传递给该层主特征X}{Main}，在不同尺度之间进行交互，从而生成细化的特征。

【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络_小样本语义分割_深度学习_09

【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络_小样本语义分割_语义分割_10

如图5所示说明了提出的跨尺度合并模块M。首先将从其他尺度下获取的辅助特征调整为与主特征相同的空间大小。然后使用1×1卷积α从主特征和辅助特征拼接后的特征中提取有用的信息，然后与主特征进行一次像素级相加操作。后续使用两个3×3卷积，命名为β完成交互，然后再次和主特征进行一次像素级相加操作，输出细化后的特征。对于那些没有辅助特征的特征(例如，自顶向下路径上的第一个合并特征和自底向上路径上的最后一个合并特征)，则简单地忽略了与辅助特征的拼接——细化后的特征只由主特征产生。

步骤3 - Information Concentration：

将不同尺度的特征采样到同样大小后进行拼接，使用一个1×1卷积最终产生细化的query特征。

【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络_小样本语义分割_语义分割_11

【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络_小样本语义分割_深度学习_12

在FEM的输出特征上，PFENet应用一个卷积块(图7(a))和一个分类头来产生最终的预测。分类头由一个带有Softmax函数的3×3卷积和1×1卷积组成，如图7(b)所示。

此外作者还在训练过程中添加了辅助损失操作。对 Inter-Scale Interaction操作后获得的Merged特征添加一个分类头如图7(b)所示，获得每个尺度下输出的预测图，并和query的图像标签计算的交叉熵进行累加操作，平均后得到最终的辅助损失。对应代码如下：

for idx_k in range(len(out_list)):    
  inner_out = out_list[idx_k]
  inner_out = F.interpolate(inner_out, size=(h, w), mode='bilinear',align_corners=True)
  aux_loss = aux_loss + self.criterion(inner_out, y.long())   
aux_loss = aux_loss / len(out_list)

损失函数：

【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络_小样本语义分割_语义分割_13

PFENet中采用交叉熵损失计算所有的损失函数。Merge后的特征的预测结果产生多个中间辅助监督损失L1，PFENet的最终预测产生了第二个损失L2。总损失L为L1^i和L2的加权和。其中σ用于平衡中间监督的效果。在所有实验中作者经验性地将σ设为1.0。

其他设置说明：

对于所有骨干网络，PFENet将conv3_x和conv4_x的最后一层输出作为中层特征M，串联生成query和support特征，将conv5_x的最后一层输出作为高层特征H，生成先验掩码。在5-shot设置中，PFENet仅简单地将5个池化后的support特征的平均值作为与查询特征关联之前的新support特征。同样，FEM中拼接前的最终先验掩码也是一个由不同support特征和query特征产生的5个先验掩码的平均值得到的。

实验精析：

数据集：

使用PASCAL-5i[33]和COCO[21]的数据集进行评估。

PASCAL-5i由PASCAL VOC 2012[6]和来自SDS[12]数据集的扩展注释组成。20个类平均分为4个folds，i∈{0,1,2,3}，每个fold包含5个类。参考OSLSM[33]，PFENet在每次测试中随机抽取1000个query-support对。

COCO包含80个类别。参考[28]，PFENet通过从80个类中拆分4个folds，每个fold包含20个类，来进行模型评估。作者考虑到COCO验证集包含40,137张图像(80个类)，比PASCAL- 5 i中的图像多得多。因此，作者认为使用的1000个随机抽样的query-support对不足以在20个测试类上产生可靠的测试结果。因此，PFENet在COCO数据集每个fold的评估过程中随机采样20,000个query-support对，使得结果比在以前的工作中使用的1,000个query-support对测试更稳定。

当在一个fold上测试模型时，PFENet使用其他三个fold来训练模型进行交叉验证。取不同随机种子的5个测试结果的平均值进行比较。

实验设置：

PFENet中骨干网络采用VGG-16, ResNet-50和ResNet-101，其中VGG是原始版本，ResNet是之前工作[28]，[54]，[15]中使用的扩展版本。在训练过程中训练样本被随机裁剪为473 × 473的patch。因为[54]中说过mIoU比FB-IoU更合理，PFENet选择mIoU作为主要评估参数。

特征富集模块(FEM)消融实验：

PFENet首先对所提出的特征富集模块(FEM)比较了不同的尺度间交互策略。并与HRNet[44]、ASPP[4]和PPM[60]的其他特征富集设计进行了比较，还比较了最近sota的小样本分割方法PGNet[53]中使用的图注意力单元(GAU)。

尺度间四种交互方式比较:

自上而下(TD)、自下而上(BU)、自上而下+自下而上(TD+BU)和自下而上+自上而下(BU+TD)。在表4中的实验结果表明，TD和TD+BU比BU和BU+TD更能帮助FEM获得比没有(W/O)信息富集的情况下更好的结果。TD+BU模型包含的可学习参数(16.0M)比TD (10.8M)更多，但性能相当。

【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络_小样本语义分割_深度学习_14

不同于一般的语义分割，上下文信息是取得良好性能的关键，在小样本分割中查询信息的表示和获取方式尤为重要。这些实验证明，使用更细的特征(辅助)为粗特征(主)提供额外的信息比使用粗特征(辅助)细化更细的特征(主)更有效，没有目标信息的下采样粗查询特征对提高最终预测质量的帮助较小。因为如果目标对象小规模消失，粗特征不足以在后期信息聚合阶段对query类别进行定位。设计的FEM在不同尺度上匹配query和support特征，以解决query和support样本之间的空间不一致问题。

其他尺度特征富集模块的比较：

PFENet尝试比较了PPM[60]，ASPP[4]，HRNet，图形注意单元(GAU)几个流行的特征富集模块。通过实验证明提出的FEM模块产生了更好的小样本分割性能，而没有垂直自顶向下信息传递(用WO标记)的模型产生的结果更差。

【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络_小样本语义分割_人工智能_15

ASPP：ASPP的扩张率设置为{1, 6, 12, 18}并得到了接近PPM的结果。得出结论：小样本分割[53]，扩张卷积的效果不如自适应平均池化。

PPM：PSPNet[60]的实验表明，空间大小为{6,3,2,1}的金字塔池化模块(PPM)具有最佳的性能。当小空间尺寸应用于FEM时，它仍然优于PPM。但是小的空间尺寸在FEM中并不是最优的，因为集合为{6,3,2,1}这样的空间尺寸的特征对于查询和支持特征的交互和融合来说太粗糙了。类似地，空间大小为{60,30,15,8,4}的模型比使用{60,30,15,8}的FEM产生更差的性能。因此，PFENet选择{60,30,15,8}作为FEM源间丰富的特征尺度。

GAU：图注意力单元GAU (Graph Attention Unit) [53]利用图注意力机制在每个尺度上建立query和support特征之间的元素到元素的对应关系。support特征像素由GAU进行加权，新的support特征是原始support特征的加权和。作者直接将FEM替换为GAU，并保留其他设置。GAU实验结果没有放入表5中，在1-shot和5-shot评估中GAU分别达到mIoU 55.4和56.1。此外还使用FEM中的尺度{60,30,15,8}(记为GAU+)来评估mIoU(1-shot 54.9,5-shot 55.4)。虽然GAU也通过自适应池化形成了金字塔结构来捕获多层次语义信息，但它忽略了自适应地提供从其他尺度提取的信息以帮助改进合并的特征的层次尺度间关系。

【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络_小样本语义分割_卷积_16

HRNet的深度比较与分析： HRNet通过在所有网络中保持一个高分辨率特征，并逐步融合多尺度特征来丰富高分辨率特征。作者认为所提出的FEM可以看作是HRB的一种变体，类似于HRB中的多分辨率并行卷积，如图9所示。但FEM的尺度间交互作用将条件信息从大尺度传递到小尺度，而不是HRB中没有选择的所有尺度之间的密集交互作用。

【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络_小样本语义分割_小样本学习_17

为了进行比较，作者在HRB中生成与FEM中相同比例尺的特征图({60,30,15,8})。结果如表6所示。直接将HRB应用到基线(Baseline+ HRB)比PPM和ASPP产生更好的结果。没有选择的密集传递信息会导致目标特征的冗余，并产生次优结果。作者的解决方案是，在HRB的多分辨率融合阶段，应用所提出的跨尺度合并模块M从辅助特征中提取必要信息，如图10所示。条件特征选择模型(HRB-Cond)具有更好的性能。当只允许自顶向下的传递特征(记为HRB- td)，HRB- td比HRB获得了更好的性能，因此作者也将其应用在了HRB-Cond得到HRB-TD-Cond。

【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络_小样本语义分割_小样本学习_18

先验掩膜生成的消融实验：

【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络_小样本语义分割_小样本学习_19

表7显示，由可学习的或固定的中间层特征(Prior_{LM}或Prior_{FM})生成的掩膜比提出的Prior_{FH}带来的提升得要少，因为中层特征在揭示查询和支持特征之间的语义对应方面效果较差。为了验证设计的有效性，在表7中作者训练了另外两个模型:一个具有通过平均相似度生成的先验掩膜(Prior-A_{FH})，另一个具有通过mask池化的支持特征获得的先验掩码(Prior-P_{FH})。

【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络_小样本语义分割_人工智能_20

【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络_小样本语义分割_深度学习_21

此外作者还对样本进行了可视化嵌入进行深入分析，如图12所示。其中1000个基类样本(灰色)和1000个新类样本(绿色、红色、紫色、蓝色和橙色)，然后进行t分布-随机邻近嵌入(t-SNE[42])。可以看到，图12(a)和©中的中层特征的辨别能力低于图12(b)和(d)中的高级特征。其次，(a)和(b)中的可学习特征失去了辨别能力，因为新类的嵌入偏向于基类的嵌入，这不利于对未见类的泛化。

【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络_小样本语义分割_语义分割_22

Zero-Shot分割：

Zero-shot学习的目的是学习一个即使在没有给定标注数据的情况下也健壮的模型。这是小样本学习的一个极端例子。为了进一步证明提出的PFENet在极端情况下的鲁棒性，作者用类标签嵌入替换了池化的support特征。因此，先验这时是无用的，只验证在基线上的FEM与VGG-16骨干在Zero-shot的设置。

Word2Vec[27]和FastText[25]的嵌入分别在谷歌News[46]和Common Crawl[26]上进行训练。Word2Vec和FastText嵌入的拼接特征直接取代了原始模型中的池化support特征，而不需要归一化。如表11所示，基础结构在没有支持样本的未见类上达到53.2的mIoU，甚至在OSLSM[33]的few-shot设置下，在PASCAL-5i上优于一些有5个支持样本的模型。此外，所提出的FEM解决了Zero-shot设置中的空间不一致性，并提高了1.0的基线mIoU(从53.2提高到54.2)。

【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络_小样本语义分割_深度学习_23

其他：

为了更好地理解主干如何影响提出的方法，作者也展示了用所有主干参数训练的四个模型的结果。结果表明，FEM和先验掩码对可训练骨干网模型的改善效果不如对固定骨干网模型的改善效果显著。可学习的高级特征给固定骨干带来了较差的性能，如表7所示，但对可训练骨干是有益的。在5shot的评估中，先验产生了比FEM更高的性能增益，因为先验是在5个支持样本上平均的，为查询图像提供了比1shot更准确的先验掩模，以对抗过拟合。

因为在PASCAL-5i和COCO上计算1,000个query-support对可能会导致结果不稳定。作者通过使用不同的支持样本进行多次实验来分析结果的稳定性。