论文阅读：PFENet：Prior Guided Feature Enrichment Network for Few-Shot Segmentation-CFANZ编程社区

PFENet：Prior Guided Feature Enrichment Network for Few-Shot Segmentation 小样本分割的先验引导的特征富集网络

2020TPAMI

小样本分割的挑战

高层特征的误用导致的泛化损失（未知类别泛化损失弱）

查询样本和空间样本之间的空间不一致

动机

问题1：高层特征误用导致的泛化损失

在CANet论文中，实验表明，**使用中层特征比使用高层特征，实验性能更好。**在特征处理中，简单地使用高层特征会导致性能下降。

CANet认为的原因：

中层特征是由看不见的类共享的对象部分组成，可能蕴含着未知类别的特征。

高层特征中包含的语义信息比中间层特征更class-specific（特定于类），所以高层特征更有可能使模型对未见类的泛化能力产生负面影响。

高层特征直接提供语义信息，在识别属于训练类别的像素和减少训练损失上的贡献大于中层特征，从而导致对训练类的偏爱。

所以，缺乏泛化性和对训练类的偏好都对未知类的测试产生影响。

但与此同时，之前的分割框架都是利用高层特征为最终预测提供语义线索。

因此，问题动机转化为，如何在训练不敏感的方式中利用高层特征信息来增强小样本分割的性能。

问题2：支持和查询样本空间不一致

现有大多方法利用掩膜全局平均池化从训练图像中提取类别向量。但是，因为查询图像中的目标可能会比支持样本大得多或小得多，或者姿态相差很大，所以使用全局平均池化会导致空间信息不一致。

因此，由于全局平均池化会导致空间信息不一致，直接使用MAP匹配查询特征的每个像素并不理想。

方法

针对高层特征误用导致的泛化损失问题 —— 先验泛化方法

利用查询和支持图像的高层特征来生成模型的“先验值”（无需训练）

先验信息有助于模型更好地识别查询图像；

高层特征是从预先训练的ImageNet中得到的，所以生成先验的过程并没有增加额外的训练过程，所以生成的模型不会失去对未见类的泛化能力。

极大地提高了预测精度，保持了高泛化性

针对支持和查询样本空间不一致问题 —— FEM方法

通过整合支持特征和先验信息，利用条件化的跨尺度信息交互自适应地丰富查询特征

水平地交互查询特征与每个尺度中的支持特征和先验掩码

垂直利用层次关系，通过自顶向下的信息路径，从精细特征中提取必要信息，丰富粗特征图

水平和垂直优化后，收集不同尺度的特征，形成新的查询特征

论文阅读：PFENet：Prior Guided Feature Enrichment Network for Few-Shot Segmentation_分割

通过预训练的CNN，分别得到支持图像和查询图像的高层特征和中层特征。

利用中层特征生成查询和支持特征。

利用高层特征生成先验掩膜。

特征富集模块（FEM）利用支持特征和先验掩膜丰富查询特征。

损失函数：

论文阅读：PFENet：Prior Guided Feature Enrichment Network for Few-Shot Segmentation_分割_02

不同空间大小在New Query feature上的损失 + 最后的预测损失

Prior generation

目的：将高层特征转化为先验掩膜（prior mask）

先验掩膜：像素属于目标类的概率。具体来说，揭示查询特征和支持特征之间像素级的对应关系。掩膜上的一个高值像素表明对应的查询像素与支持特征中的至少一个像素具有高对应关系。所以此像素很可能处于查询图像的目标区域。

此处的支持特征背景被设为0，所以查询特征的像素与支持特征上的背景没有对应关系。

构造先验掩膜：

1、计算查询特征 X Q 和 X S 每个像素间的余弦相似度。

论文阅读：PFENet：Prior Guided Feature Enrichment Network for Few-Shot Segmentation_分割_03

2、取所有支持像素中最大相似度作为响应值 c q

论文阅读：PFENet：Prior Guided Feature Enrichment Network for Few-Shot Segmentation_点云_04

3、归一化处理。

论文阅读：PFENet：Prior Guided Feature Enrichment Network for Few-Shot Segmentation_分割_05

FEM(feature enrichment module)

输入：查询特征、支持特征、先验掩膜

输出：新的查询特征

分为三个过程：Inter-Source Enrichment、Inter-Scale Interaction、Information Concentration。

论文阅读：PFENet：Prior Guided Feature Enrichment Network for Few-Shot Segmentation_小样本_06

Inter-Source Enrichment 源间丰富

projects input to different scales （将输入投射到不同尺度）
interacts the query feature with support feature and prior mask in each scale independently

（在每个尺度上独立地将查询特征与支持特征和先验掩码进行交互）

水平：三类特征融合

Inter-Scale Interaction 跨尺度互动

selectively passes essential information between merged query-support features across different scales

（在不同尺度的合并查询支持特征之间有选择地传递重要信息）

垂直：不同尺度融合

Information Concentration 信息拼接

merges features in different scales to finally yield the refined query feature （合并不同尺度的特征，最终得到精炼的查询特征）

Inter-Source Enrichment 源间丰富

1、通过自适应平均池化，生成n个不同空间大小的子查询特征。

相应地，将支持特征扩展到不同空间大小的特征图，

将先验掩膜调整为对应空间大小（这些怎么操作的？）

2、拼接三类特征，卷积处理后得到各尺度的查询特征。

Inter-Scale Interaction

论文阅读：PFENet：Prior Guided Feature Enrichment Network for Few-Shot Segmentation_分割_07

值得注意的是，在向下采样的特征图中可能不存在微小物体

Top-down Path：自适应地将信息从细粒度特征传递到粗粒度特征，有助于在FEM中构建层次关系。

目标检测的PANet？

尺度间合并模块中的残差连接用于保持输出特征中主特征的完整性

Information Concentration

通过插值和拼接所有尺度的查询特征图Xi Q,new，i∈{1,2,...,n}，得到最后新的查询特征图。

值得注意的是，作者添加了中间监督。即将分类头添加到每个尺度的 Xi Q,new 后面进行预测。

论文中指出现有的小样本分割方法普遍存在的两个问题：

1.由于滥用高层特征而导致的泛化性能损失

常规语义分割模型在很大程度上依赖于具有语义信息的高级特征。CANet[54]的实验表明，在小样本模型的特征处理过程中，简单地添加高级特征会导致性能下降。在few-shot设置中利用语义信息的方法并不简单。

PFENet使用ImageNet[32]预训练的query和support图像的高层特征来为模型生成“先验”。这些先验值有助于模型更好地识别query图像中的目标。由于之前的先验的过程无需训练，因此尽管在训练过程中经常使用已见类别的高层语义信息，但所得到的模型并没有失去对未见类别的泛化能力。

2.query和support样本之间的空间不一致性

由于样本有限，每个support目标对象的规模和姿态可能与其对应query目标对象有很大差异，我们称之为空间不一致性。

PFENet提出了一种新的特征富集模块(Feature Enrichment module, FEM)来自适应地充实query特征。论文中的消融研究表明，仅仅结合多尺度来解决空间不一致性是次优的，FEM提供了有条件的特征选择，有助于保留跨越不同尺度传递的重要信息。实验证明FEM的性能优于HRNet[44]、PPM[60]、ASPP[4]和GAU[53]等多尺度结构。

先验生成模块：

重要动机说明：

先验掩膜生成方法：

PFENet试图将ImageNet[32]预训练模型中提取的support高级语义特征和support mask转换为一个先验掩码，该掩码能够表示query特征图上每一个像素属于目标类的概率。训练时，骨干网络参数固定为PANet[45]，CANet[54]中的参数。因此，先验生成过程不偏向训练类C_{train}，并在对未见的测试类C_{test}进行评估时保持类不敏感。I_Q, I_S表示输入query和support图像，M_S表示二进制支持掩码，F表示骨干网，X_Q, X_S表示高级query和support特征，然后在公式(1)中，support高层语义特征X_S矩阵乘二进制的support mask进行背景去除：

矩阵乘采用的是哈达玛积（Hadamard product）对形状相同的矩阵进行运算，并产生相同维度的第三个矩阵。骨干网F的输出用ReLU函数处理。

先验掩膜计算公式：

PFENet计算support和query特征之间像素级的余弦相似度来生成先验掩膜Y_Q:

其中x_q和x_s分别是query和suppot特征上对应像素位置的特征向量，即计算query特征上每个像素位置和support特征上所有像素位置的向量的余弦相似度，然后保留最大的那个作为Y_Q的特征值c_q。

然后接一个min-max归一化处理YQ，将值归一化到0到1之间。epsilon设置为 1e − 7防止除0。