论文：Language-Aware Fine-Grained Object Representation for Referring Expression Comprehension-CFANZ编程社区

作者

在这里插入图片描述

Abstract

参照表达式理解期望精确定位由语言表达式描述的对象，这需要精确的语言感知视觉对象表示。然而，现有的方法通常使用矩形对象表示，例如对象提议区域和网格区域。他们忽略了一些细粒度的对象信息，如形状和姿态，这些信息通常在语言表达式中描述，对本地化对象很重要。此外，矩形对象区域通常包含背景内容和不相关的前景特征，这也降低了定位性能。为了解决这些问题，我们提出了一个语言感知的可变形卷积模型(LDC)来学习语言感知的细粒度对象表示。LDC不是提取矩形对象表示，而是基于图像和语言自适应地采样一组关键点来表示对象。这种类型的对象表示可以捕捉更细粒度的对象信息(例如，形状和姿态)并根据语言抑制噪声，从而提高对象定位性能。基于语言感知的细粒度对象表示，我们接下来设计双向交互模型(BIM ),该模型利用修改的共同注意机制来构建跨模态双向交互，以进一步改进语言和对象表示。此外，我们提出了一个分层细粒度表示网络(HFRN ),分别在局部单词级和全局句子级学习语言感知的细粒度对象表示和跨模态双向交互。我们提出的方法在RefCOCO、RefCOCO+和RefCOCOg数据集上的性能优于当前最先进的方法。

Introduction

在这里插入图片描述

参照表达理解旨在参照自然语言表达定位图像中的特定对象，这是面向人机通信的人工智能领域的基本任务之一[8，13，14，23，26，36–38，40，44，52]。为了实现这一目标，指代表达理解不仅需要理解图像和自然语言，而且还需要将它们对齐和关联以根植于正确的区域，这使得它具有挑战性。
为了对语言和视觉之间的关系进行建模，现有的方法[2，16，22，25，27，28，35，41–43，45，47–50]通常将语言特征和常规图像区域特征相结合，例如对象提议区域[2，22，25，27，28，41–43，47–50]和网格区域[16，35，45]，分别如图1 (a)和(b)所示。然而，这些方法忽略了一些与自然语言相关的细粒度对象信息，如对象形状和姿态，这些信息通常在语言表达式中描述，并且在参考表达式理解来定位和区分目标对象时很重要。此外，矩形提议区域通常包含噪声信息，例如背景内容或不相关的前景特征。例如，在图1 (a)中，基于提议区域的方法没有通过紧密的边界框来定位“斑块”对象。原因之一是该方法中的对象表示不包含细粒度的对象形状信息，并且引入了一些噪声，如“牌匾”的底部和正方形板。在图1 (b)中，如果没有细粒度的对象表示，基于网格区域的方法无法找到目标对象。
为了解决上述问题，我们提出了一种语言感知的可变形卷积模型(LDC)来学习语言感知的细粒度对象表示。与以前提取矩形对象表示的方法不同，LDC自适应地生成基于图像和语言表示对象的一组关键点。它可以捕捉与语言相关的更细粒度的对象信息(例如，形状和姿态)。例如，在图1 ©中，这些关键点被放置在“斑块”的边界上，以捕捉形状信息“圆”。此外，可以通过聚集这些周围特征来增强对象特征的语义区分，这将有助于视觉和语言之间的后续跨通道交互。
基于语言感知的细粒度对象表示，我们接下来设计双向交互模型(BIM)来构建双向视觉-语言交互，以进一步改进语言和对象表示。BIM使用修改的共同注意机制，并由语言加权视觉分支和视觉加权语言分支组成。语言加权视觉分支使用语言特征作为线索来加权每个位置的视觉特征。相反，视觉加权视觉分支使用视觉特征将语言投射到视觉空间。
我们的LDC和BIM基于表达式提取视觉对象表示，表达式中包含层次语义信息，比如单词级和句子级信息。整个句子描述的是全局语义，而有很多细节是用文字描述的。因此，我们提出了一个层次化的细粒度表示网络(HFRN)来学习细粒度的对象表示，并在不同的语义层建立双向的跨通道交互，以实现精确的对象定位。我们在三个基准数据集上验证了所提方法的有效性，包括RefCOCO [15]、RefCOCO+ [15]和RefCOCOg [27]数据集。实验结果证明了该方法的有效性。
总之，我们的方法的主要贡献如下：

我们提出了一个语言感知的可变形模型(LDC)和一个双向交互模型(BIM),以学习语言感知的细粒度对象表示，并构建双向跨通道交互来进一步增强对象和语言表示。
我们提出了一种分层细粒度表示网络(HFRN),它在局部单词级和全局句子级利用LDC和BIM来预测更准确的理解结果。
大量实验表明，我们的方法在RefCOCO、RefCOCO+和RefCOCOg数据集上明显优于最先进的方法。

Related work

近年来，参照表达理解的任务吸引了越来越多的关注，其期望基于输入的表达在图像中定位相应的对象。以前的指代表达理解方法[2，6，11，16，22，25，27，28，35，41–43，45，47–51]主要可以分为两类，包括基于提议区域的方法[2，6，11，22，25，27，28，41–43，47–51]和基于网格区域的方法[16，35，45]。
大多数基于建议区域的方法[2，22，41–43，47，50]都基于“监听器”策略，该策略首先将语言特征与建议区域的视觉特征相结合，然后从这些建议中选择最匹配输入表达式的目标区域。建议区域通常由预训练的对象检测器提取(例如，更快的R-CNN [34]，掩模R-CNN [9]和其他[4，17，30–32])。为了将视觉区域与更强大的表达对齐，方法[22，47]提出将表达分解为三个部分(主题、定位和关系)，并利用跨通道注意力来关注相关区域。为了自适应地基于复杂的指代表达，在[43]中的动态图形注意网络基于多模态上下文关系图执行多步视觉推理，以逐步识别复合对象。在一些作品中[25，27，28，48],“说话者”策略首先从每个对象的视觉特征预测表情，然后将预测的表情与输入表情进行匹配，以找出期望的对象。基于上述“听者”和“说者”的工作，于等人[49]提出了一个说话者-听者-强化者的联合模型，以更好地沟通语言和视觉之间的关系。虽然这些方法可以保证相当大的性能，但它们通常依赖于由预训练的对象检测器生成的提议区域。如果该区域不在建议区域中，将无法定位目标对象。此外，矩形建议区域是粗略的对象表示，其可能包含背景内容或不相关的前景特征，并因此干扰对象定位精度。

基于网格区域的方法[16，35，45]通常将语言特征与网格区域特征相融合，然后利用一阶段对象检测器(例如YOLOv3 [33])来直接定位对应于输入表达式的对象。这些方法不依赖于预先提取的建议区域，并且是端到端训练的。Yang等人[45]将文本查询的嵌入和空间特征集成到YOLOv3对象检测器中[33]。廖等人[16]介绍了一种跨通道相关滤波方法，将语言特征映射到CenterNet对象检测器[7]。然而，这些方法使用矩形网格区域来表示对象，这忽略了一些细粒度的对象信息(例如，对象形状和姿态)，并且可能导致输入表达式的不准确的对象定位。与它们不同的是，我们的方法基于图像和语言自适应地学习一组关键点来表示对象，而不是矩形对象区域，这不仅可以捕捉更细粒度的对象信息，而且可以根据语言抑制噪声。

3 PROPOSED METHOD

在本节中，我们首先介绍所提出的语言感知可变形卷积模型(LDC)和双向迭代模型(BIM ),以学习语言感知的细粒度对象表示。然后，我们详细介绍了提出的层次细粒度表示网络(HFRN ),它应用这两个模型来定位引用表达式描述的对象。

3.1Language-Aware Deformable Convolution Model (LDC)

在指称表达理解中，精确的语言感知对象表征有助于将图像与语言对齐，提高定位性能。为了学习语言感知的细粒度对象表示，一方面，我们提出了一种语言感知的可变形卷积模型(LDC ),它基于图像和语言自适应地采样一组关键点来建模对象形状、姿态和重要的语义信息。另一方面，我们利用监督学习策略来优化LDC，以更好地预测这些关键点。我们提取伪本地化，并将其与真实边界框进行比较，无需额外的手动注释。

提出的LDC如图2所示。考虑视觉表示 $V∈\R^{c_v×h×w}$ 和语言表示 $q∈\R^{c_q}$ ，其中 $c_v、h和w$ 分别表示视觉特征图 $V$ 的通道维度、高度和宽度； $c_q$ 表示语言特征 $q$ 的通道维度。这里， $\{v_p\}^{hw}_{p=1}$ ， $v_p∈ \R^{c_v}$ 表示 $V$ 中第 $p$ 个位置的特征向量。我们的目标是自适应地学习语言感知的关键点。受可变形卷积 [5] 的启发，我们首先为每个地图位置 $p$ 定义一个初始点集 $G$ 。初始 $G = \{(−1,−1), ..., (0, 0), ..., (1, 1)\}$ 是一个 3 × 3 的点集，其中每组坐标代表相对点到 $p$ 的位置。然后，我们可以通过偏移 $G$ 中点的坐标来近似得到想要的关键点物体的边界。为此，我们使用全连接层生成一组语言过滤器 $f^q$ 并将视觉表示 $V$ 与这些语言过滤器进行卷积以获得语言感知偏移量 $Δp^q$ ：
在这里插入图片描述
其中tanh是激活函数， $W_f$ 和 $b$ 是全连接层的权重和偏差。 $f^q∈ \R^{2nc_v}$ 是语言过滤器的集合，其中 $n = 3 \times 3 = 9$ 表示每个视觉表示 $v_p$ 的关键点数。我们将 $f^q∈\R^{2nc_v}$ 重塑为 $f^q∈\R^{2n×c_v}$ 以过滤视觉表示。 * 表示卷积操作。过滤结果 $Δp^q = \{Δp^q_1 , ...,Δp^q_k , ...,Δp^q_n\}∈ \R^{2n}$ 表示与语言表示 q 对应的第 p 个位置的偏移量。
之后，我们添加学习的偏移量 $Δp^q$ 来调整初始采样定位，然后加权聚合这些关键点以在每个位置 p 生成语言感知的细粒度对象表示 $v^q_p$ ：

在这里插入图片描述
其中 $W_{p_k}$ 是第 k 个关键点的可学习权重。 $p_k∈ G$ 和 $Δp^q_k = (Δx_{p_k} ,Δy_{p_k})∈Δp^q$ 分别表示第 k 个关键点的初始位置和学习到的 2D 偏移量。每个关键点的位置可以计算为 $p^q_k = p +p_k +Δp^q_k$ 。结果 $v^q_p∈\R^{c_v}$ 表示基于视觉和语言信息的聚合对象表示。
为了预测可靠的关键点，我们通过监督学习策略训练我们的 LDC。但是，现有数据集没有关键点标注。仅提供边界框注释 ${B = (x, y, w, h)\}$ ，其中 $x, y$ 表示中心坐标， $w, h$ 表示宽度和高度。为了解决这个问题，我们通过 Reppoint [46] 中的基于矩的函数将每个位置 p 的预测关键点转换为伪边界框 $B_p$ ：
在这里插入图片描述

其中 $mean(x_n)$ 和 $mean(y_n)$ 是伪边界框 $B_p$ 的中心点坐标，由n个关键点上平均坐标计算得来。 $std(x_n)$ 和 $std(y_n)$ 表示 $B_p$ 的宽度和高度，它们是 $n$ 个关键点的水平和垂直坐标上的标准差。 $λ_x$ 和 $λ_y$ 是可学习的参数。
基于伪边界框 $B_p$ 和真实边界框 $B$ ，我们的 LDC 可以通过流行的目标定位损失函数 SmoothL1 进行训练：
在这里插入图片描述

3.2 Bidirectional Interaction Model (BIM)

在获得语言感知的细粒度对象表示之后，我们接下来设计一个双向交互模型（BIM）来执行语言和视觉之间的交互，并进一步增强语言和对象表示。现有的方法 [1, 19, 21, 24] 通常使用共同注意机制 [39] 来实现这一目标。然而，它们将视觉特征转换为一维向量，从而丢失了空间信息，这对于目标定位很重要。因此，我们在 BIM 中设计了一种改进的共同注意机制，将视觉和语言特征转换为 3D 空间，以保留空间信息。
如图 3 所示，BIM 由语言加权视觉分支和视觉加权语言分支组成。语言加权视觉分支旨在基于语言对视觉表示进行加权。具体来说，我们首先计算视觉表示 $v^q_ p∈\R^{c_v}$ 和语言表示 $q∈ \R^{c_q}$ 之间的余弦相似度 $s^v_{p,q}$ 来模拟它们的关系。对于语言表示 q，对应的视觉注意力 $a^v_{p,q}$ 可以如下捕获：
在这里插入图片描述其中 $W^v_v$ 和 $W^v_q$ 是参数。高分 $a^v_{p,q}∈ [0, 1]$ 意味着第 p 个视觉表示对语言表示 q 很重要。基于学习到的视觉注意力分数，每个位置的视觉特征可以加权为：

其中⊙表示 hadamard product。

在视觉加权语言分支中，我们对每个视觉区域的语言表示进行加权，这可以将语言特征 q 投影到视觉空间。语言注意力 $a^v_{p,q}$ 可以计算如下：
在这里插入图片描述其中 $W^q_v$ 和 $W^q_q$ 是参数。 $a^q_{p,q}∈ [0, 1]$ 表示第 p 个视觉表示的语言 q 的权重。然后，我们可以计算加权语言特征如下

其中 $\hat{q}^{v_p} ∈ \R^{c_q}$ 是第 p 个视觉表示的加权语言特征

最后，我们通过卷积层整合加权视觉和语言特征：
在这里插入图片描述
其中 $\hat{v}^q_p∈ \R^{c_v}$ 是双向交互后的语言感知细粒度视觉表示。 [; ] 表示连接运算符。

3.3 Hierarchical Fine-Grained Representation Network (HFRN)

在提出的 LDC 和 BIM 的基础上，我们进一步提出了一种分层细粒度表示网络（HFRN）来定位输入语言表达所指的对象，该网络学习语言感知细粒度表示并在词级和句子级建立跨模态交互，分别。如图 4 所示，HFRN 由四个主要部分组成：图像和语言编码器、单词感知网络 (WAN)、句子感知网络 (SAN) 和检测头
在这里插入图片描述

Image and language encoders
引用表达式理解任务中的输入包含两部分：图像 $I$ 和自然语言表达式 $=\{r_t \}^T_{t =1}$ ，其中 $T$ 表示表达式中的单词总数。具体来说，我们采用带有特征金字塔网络（FPN）[17]的ResNet [10]作为图像编码器网络来提取多尺度视觉特征。提取的一定尺度的特征图可以表示为 $V∈\R^{c_v ×h×w}$ 。对于语言表达，我们首先将每个单词嵌入到 onehot 向量 $r_t$ 中，然后使用 Bi-LSTM 对每个单词进行顺序编码。每个单词的最终表示 $q_t∈\R^{c_q}$ 可以通过在两个方向上连接隐藏向量来获得。
在这里插入图片描述
与之前的方法 [16, 35, 43, 45] 使用最后一个隐藏状态作为整个表达式的表示不同，我们引入了一种软注意力机制来提取对整个表达式有意义的重要单词并将它们聚合以形成表示整个句子的 $\bar{q}∈\R^{c_q}$ ：
在这里插入图片描述
其中 $a_t$ 代表第t个词的注意力权重， $W_t$ 是权重。

Word-aware network (WAN)

单词感知网络（WAN）旨在为语言表达中的每个单词学习细粒度的对象表示。基于视觉表示 $V$ 和单词表示 $\{q_t \}^T_{t =1}$ ，我们首先利用 LDC 捕获与每个单词相关的关键点，可以将其转换为伪边界框。然后我们聚合这些关键点来表示细粒度的对象信息。接下来，我们使用 BIM 对每个单词和视觉表示之间的相关性进行建模，并根据学习到的相关矩阵对单词和视觉表示进行加权，以进一步改进它们的表示。最后，单词感知的细粒度视觉特征图 $\tilde{V}^w∈ \R^{c_v ×h×w}$ 和伪边界框 $B^w_p$ 在引用表达式中的所有单词上进行平均。

Sentence-aware network (SAN).
句子感知网络 (SAN) 期望为整个语言表达学习细粒度的对象表示。基于 CNN 提取的视觉表示 $V$ 和单词感知的视觉特征图 $\tilde{V}^w$ ，我们进一步将它们与整个句子表示相结合，以学习句子感知的细粒度视觉对象表示。与 WAN 类似，SAN 利用 LDC 和 BIM 为整个句子生成伪边界框 $B^s_p$ 以及细粒度的视觉对象特征图 $\tilde{V}^s∈ \R^{c_v ×h×w}$ 。因为 SAN 将单词感知的视觉表示作为输入，所以输出 $\tilde{V}^s$ 包含单词级别和句子级别的信息，即分层语言信息。

Detection head.

基于分层语言感知的细粒度对象表示 $\tilde{V}^s$ ，我们采用了一个无锚检测头[46]，包括定位和分类分支来预测与输入表达式对应的对象。对于每个图像位置 $p$ ，检测头输出一个伪边界框 $B^d_p$ 和一个置信度分数 $CS_p$ 。为了进一步细化定位结果，我们结合了单词感知边界框 $B^w_p$ 、句子感知边界框 $B^s_p$ 和检测到的边界框 $B^d_p$ 。对于每个图像位置 p，最终的边界框 $B^f_p$ 可以计算为
在这里插入图片描述其中 $β_w$ 和 $β_s$ 是权重，可以在训练期间自适应地学习。最终的理解结果是具有最高置信度分数 $CS_p$ 的边界框 $B^f_p$ 。

Training loss.
HFRN 可以通过定位损失 $L_{reg}$ 和分类损失 $L_{cls}$ 进行端到端优化，如下所示：
在这里插入图片描述其中分类损失 $L_{cls}$ 是预测置信度分数 $CS_p$ 和标签之间的焦点损失。定位损失 $L_{reg}$ 是最终边界框 $B^f_p$ 和Groundtruth之间的 SmoothL1 损失。由于 $B^f_p$ 是 $B^w_p$ 、 $B^s_p$ 和 $B^d_p$ 的加权和，因此可以通过最小化 $L_{reg}$ 来优化这些边界框和相应的参数。

Experiments

在这里插入图片描述

Conclusion

在本文中，我们提出了一种用于引用表达理解的语言感知细粒度表示方法。在这种方法中，语言感知的可变形卷积模型 (LDC) 基于图像和语言自适应地提取一组关键点，以捕获细粒度的对象信息，例如对象形状和姿势。基于LDC，双向交互模型（BIM）构建双向跨模态交互和关联，以进一步改进语言和视觉表示。此外，分层细粒度表示网络（HFRN）分别在单词级别和句子级别应用上述两个模块，然后根据细粒度对象表示预测最终的定位结果。优异的性能证明了该方法在三个常见的引用表达理解数据集上的有效性。