A New Benchmark and Approach for Fine-grained Cross-media Retrieval 论文解读-CFANZ编程社区

题目：一种新的细粒度跨媒体检索基准和方法

时间：2019.10
作者：贺祥腾，彭宇鑫，谢刘
第27届ACM多媒体国际会议论文集

ABSTRACT

跨媒体检索：返回与任意媒体类型查询相对应的各种媒体类型的结果。
跨媒体检索的研究现状及问题：
现有的研究主要集中在粗粒度跨媒体检索上。当用户提交一张“灰背鸥”的图片作为查询时，粗粒度的跨媒体检索将其视为“鸟”，这样，用户只能得到“鸟”的结果，其中可能包括其他具有相似外观(图像和视频)、描述(文本)或声音(音频)的鸟类，如“鲱鱼鸥”。
这种粗粒度的跨媒体检索与人类的生活方式不一致，在人类的生活方式中，我们通常有细粒度的需求，即返回“灰背鸥”而不是“鲱鱼鸥”的精确相关结果。
本文的工作：本文首先构建了一种新的细粒度跨媒体检索基准，该基准由“鸟”的200个细粒度子类别组成，包含图像、文本、视频、音频4种媒体类型。据我们所知，这是第一个使用4种媒体类型进行细粒度跨媒体检索的基准测试。然后，我们提出了一个统一的深度模型FGCrossNet，该模型可以同时学习4种类型的介质，不需要区别对待。为了更好地进行公共表示学习，我们共同考虑了三个约束条件:分类约束保证了细粒度子类别判别特征的学习，中心约束保证了同一子类别特征的紧凑性，等级约束保证了不同子类别特征的稀疏性。大量的实验验证了新基准的有效性和我们的FGCrossNet的有效性。
FGCrossNet的新基准和源代码链接

1.INTRODUCTION

跨媒体检索的意义：在大数据时代，图像、文本、视频、音频等多媒体数据已成为人类认识世界的主要形式。因此，提供一种有效的多媒体检索范例以满足人的检索需求具有重要意义。跨媒体检索就是这样一种有效的检索范式，用户可以通过提交任意媒体类型的查询来获得各种媒体类型的结果。 图1显示了一些跨媒体检索的例子，其中音频数据是通过声谱图可视化的。。
粗粒度跨媒体检索和细粒度跨媒体检索的区别：当用户提交一个“灰背鸥l”的图像作为查询时，将返回各种媒体类型的结果包括图像、文字、视频和音频。在粗粒度跨媒体检索中，它只将图像视为“鸟”，因此返回与“鸟”相关的结果，而无需进一步细粒度考虑。因此，检索结果可能是“鲱鱼鸥”的图像，其整体外观与“灰背鸥”相似，如图2 (a)所示。它不能满足细粒度的需求，即我们希望得到与“灰背鸥”而不是“鲱鱼鸥”精确相关的结果。细粒度跨媒体检索就是这样一种范式，它满足细粒度检索需求，返回与提交查询的细粒度子类别对应的结果，如图2 (b)所示。粗粒度跨媒体检索和细粒度跨媒体检索的区别如下：
细粒度跨媒体检索面临的三个挑战:
(1)数据集较少——现有的跨媒体数据集主要是基于粗粒度类别或语义构建的粗粒度跨媒体检索，但很少有数据集可以用于细粒度跨媒体检索。
(2)异质性差距——不同类型的媒体具有不一致的分布和特征表征，这使得跨媒体检索颇具挑战性。
(3)类间差异小——属于同一基本类的相似子类别可能具有相似的全局外观(图像或视频)、相似的文本描述(文本)和相似的声音(音频)，这导致难以区分相似的细粒度子类别。
为了解决细粒度跨媒体检索的挑战，我们首先构建了一个新的细粒度跨媒体检索基准，然后提出了一个统一深度模型(FGCrossNet)，以同时学习4种类型媒体的通用表示。综合实验结果和对新基准的分析，验证了其实用性和我们的FGCrossNet的有效性。
本文的贡献:
构造了一种新的细粒度跨媒体检索基准。它有3个优点:(1)物种多样性它由200个细粒度的“鸟”子类组成，包含图像、文本、视频和音频4种媒体类型。据我们所知，它是用于细粒度跨媒体检索的具有最多媒体类型的最大基准测试。(2)领域多样性其数据来自不同的来源(领域)，这导致即使是相同媒体类型的数据也具有不同的属性和分布，增加了细粒度跨媒体检索的挑战。(3)可用性它将公开发布，供研究人员在新的基准上迅速评估他们的方法，这鼓励进一步研究细粒度跨媒体检索
**提出了一种统一的细粒度跨介质检索深度模型，**即FGCrossNet，该模型可以在不区分处理的情况下同时学习4种介质。为了更好地进行公共表示学习，我们共同考虑了三个约束条件:分类约束保证了细粒度子类别判别特征的学习，中心约束保证了同一子类别特征的紧凑性，等级约束保证了不同子类别特征的稀疏性。

2.A NEW BENCHMARK

目前已经有几个用于粗粒度跨媒体检索的数据集/基准，它们的统计信息如表1所示。

（1）Wikipedia，其中包含了来自10个粗粒度类别(如“History”和“Warfare”)的2866个图像/文本对。
（2）Rashtchian等人从Pascal VOC 2008数据集中选取1000张图像，用5个句子对其进行标注，构建出Pascal sentences数据集。
（3）随后，我们构建了一些大规模的跨媒体数据集来促进粗粒度跨媒体检索的发展，如Flickr-30K和MS-COCO。这些数据集中的文本信息由句子或文章表示。
（4）Chua等构建了NUS-WIDE数据集，该数据集从网上收集了81个粗粒度类的269,648幅图像。有5,018个惟一的标记，它们表示相应图像的文本信息。这些数据集也有同样的限制，它们只包含两种媒体类型，即图像和文本。
（5）为了综合评价和推进粗粒度跨媒体检索的发展，Peng等人构建了PKU XMediaNet，这是最大的跨媒体数据集，包含图像、文本、视频、音频和3D模型等5种媒体类型。它包含来自200个粗粒度类别的100,000个样本，它的分类是从WordNet中挑选出来的，包括47种动物，如“鸟”和“狗”，以及153种文物，如“飞机”和“汽车”。
（6）但是上述数据集仅包含基本级别的粗粒度分类，无法满足细粒度检索需求。因此，本文构建了一种新的细粒度跨媒体检索基准，该基准包括图像、文本、视频、音频4种媒体类型，其中包含200个细粒度子类别，这些子类别属于“Bird”的粗粒度类别。从表1中可以看出，我们的新基准是具有最多细粒度跨媒体检索媒体类型的最大基准。下面我们将从三个方面详细介绍新基准的收集和属性，以及细粒度跨媒体检索任务。

2.1收集

我们收集不同媒体类型的数据，包括图像、文本、视频和音频，为细粒度跨媒体检索构建新的基准。我们构建了包含200个细粒度“Bird”子类别的新基准。研究人员已经建立了由200种相同分类的鸟类组成的图像和视频数据集，即CUB-200-2011和YouTube Birds。因此，我们在这两个数据集的基础上构建了新的基准，并直接使用它们作为图像和视频数据。我们首先简要介绍这两个数据集如下:
CUB-200-2011是应用最广泛的细粒度图像分类数据集，其中包含同一基础级粗粒度分类“Bird”的200个子类的11,788幅图像。分为:训练集包含5,994张图像，测试集包含5,794张图像。每幅图像都有详细的注释:一个图像级的子类别标签、对象的边界框、15个部件位置和312个二进制属性。
YouTube Birds是一个新的细粒度视频数据集，包括18350个视频，其中200个子类别属于同一个基本级别的粗粒度类别“Bird”。其分类与CUB-200-2011数据集相同，视频实例来自YouTube。每个视频的时长不能超过5分钟。分为:训练集包含12,666个视频，测试集包含5,684个视频。
此外，我们还需要收集文本和音频数据。由于它们在互联网上很容易获得，所以我们选择了一些专业网站作为我们的数据源，如表2所示。在接下来的段落中，我们从收集和清洗两个方面介绍了收集过程。
文本和音频的数据源

2.1.1Collecting

文本收集:Wikipedia是世界上最大的免费在线百科全书，由世界各地的志愿者创建和编辑。在Wikipedia中，我们可以通过提交细粒度子类别的名称作为查询关键字，轻松地获得相应的文本描述。注意，细粒度子类别的名称与CUB-200-2011数据集相同。从Wikipedia中，我们获得了200个子类别的文本数据。但是，每个子类别的文本实例是不够的。为了获得更多的文本数据，我们采用了两种策略:
（1）获得更多的百科网站——除了维基百科之外，我们从其他11个专业网站获取文本数据，如All About Birds, Audubon, Animal Spot，如表2所示。
（2）查询关键词更多——很多鸟类物种都有学名或别名，可以作为查询关键词获取更多的文本数据。例如，“黑脚信天翁”的学名是“黑脚信天翁”。
音频采集:与文本采集一样，我们也选择了专业的音频网站作为音频数据源，如xenocanto和bird -sounds，它们分享了来自世界各地不同鸟类的声音。为了获得更多的音频数据，我们像文本收集上一样也采用了两种策略:
（1）更专业的音频网站，共有7个网站，如表2所示;
（2）更多的查询关键词。

2.1.2Cleaning

文字清理:采集的数据有噪声。我们首先从文本数据中删除网页链接，然后将一篇文本文章分段。然后将每个段落作为一个文本实例，这是最终的文本数据。由于这些文本数据是从专业百科全书数据中收集的，所以它们已经被很好地标记了。
音频清理:由于一些收集的音频实例的持续时间太长，例如超过一个小时，我们将音频分成几个部分，以获得更多的音频实例。然而，这种划分导致一些音频实例没有鸟类的声音，所以我们要求人类注释者删除这些音频实例。请注意，一些音频实例包含其他声音，如人的声音或风的声音，这增加了细粒度跨媒体检索的挑战。

通过收集和清理，我们得到用于细粒度跨媒体检索的最终数据，图3中显示了一些细粒度跨媒体数据的示例。

2.2性能

2.2.1规模

从表1可以看出，我们的新基准包含了4种媒体类型，仅逊色于PKU XMediaNet数据集，该数据集另外包含了3D模型的媒体类型。其他跨媒体数据集只包含两种媒体类型，即图像和文本。此外，在新基准中，每种媒体类型的规模都很大，即11,788张图片、8,000个文本、18,350个视频和12,000个音频。对于文本，每个子类别有40个实例。对于音频，每个子类别有60个实例。

2.2.2多样性

物种多样性新构建的基准包含200个子类别，对应于200个鸟类物种。这个属性使得新的基准具有最多的细粒度跨媒体检索的媒体类型。相似的细粒度子类别带来了类间小方差的挑战:它们具有相似的全局外观(图像或视频)、相似的文本描述(文本)和相似的声音(音频)，这使得相似的子类别很难区分。例如，在图3中，即使图像示例属于不同的子类别，它们在全局外观上看起来也类似。
领域多样性所有的数据都是从不同的来源(领域)收集的，具有不同的质量，这导致了数据分布的变化，并增加了细粒度跨媒体检索的挑战。对于图像和视频，它们在分辨率、颜色、视图、照明等方面是不同的。对于文本，它们的长度是不同的。对于音频，它们在长度和背景声音上是不同的。音频的持续时间从1秒到2000秒不等。有些音频不仅包含鸟的声音，还包括一些其他的声音，如人的声音和风的声音。

2.3细粒度跨媒体检索

为了证明我们新构建的基准的有效性，我们进行以下两个任务来评估不同方法的细粒度跨媒体检索性能，即双模态细粒度跨媒体检索和多模态细粒度跨媒体检索，如下：
双模态细粒度跨媒体检索: 查询是任何媒体类型的一个实例，检索结果是另一种媒体类型的实例 。例如，如果查询是“slty -backed Gull”的图像，那么结果可以是“slty -backed Gull”的文本实例，表示为“I→T”。总共有12个检索任务,包括“I→T”,“I→V”“I→A,“T→I”,“T→V”、“T→A”、“V→I”,“V→T”,“V→A”,“A→I”,“A→T”,“A→V”。
多模态细粒度跨媒体检索: 查询是任何媒体类型的一个实例，检索结果是所有媒体类型的实例。例如，如果查询的是“slty -backed Gull”的图像，那么结果将是“slty -backed Gull”的实例，类型为图像、文本、视频、音频，表示为“I→all”。一共有4个检索任务，分别是“I→all”、“T→all”、“V→all”和“A→all”。

3.OUR APPROACH

为了证明我们新构建的基准的有效性，我们还提出了一个统一的细粒度跨媒体检索深度模型，即FGCrossNet。在接下来的章节中，我们将从网络结构、数据预处理、损失函数、训练和检索等方面对其进行介绍。

3.1Network Architecture

现有的跨媒体检索方法通常通过不同的网络流处理不同的媒体数据，这导致了一些问题：
（1）体系结构的复杂性——不同类型的网络可能会处理不同的媒体数据。例如，图像通常由卷积神经网络（如ResNet）处理，而文本可能由LSTM处理。因此，最终的网络架构结合了不同类型的网络，这是一个高度复杂的深层模型。
（2）训练难度由于网络体系结构复杂，其训练肯定会很困难，这导致很难重现该方法。
为了简化体系结构的复杂性和降低训练难度，我们提出了一种统一的深度模型，该模型采用相同的体系结构同时学习4种媒体数据，无需区别对待。其架构如图4所示。我们采用ResNet50作为我们的基本深度模型。为了获得更好的性能，我们做了一些修改：以448×448作为输入大小，在最后一个卷积层之后遵循内核大小为14、步长为1的平均池层。值得注意的是，它可以被任何其他最先进的深度卷积神经网络所取代，如AlexNet和VGGNet。

3.2Data Preprocessing

为了将不同的媒体数据作为我们FGCrossNet的输入，我们需要先进行数据预处理。
（1）对于图像，不需要进行任何预处理。
（2）对于视频，我们绘制每个视频的25个统一空间帧作为视频数据。
（3）对于音频，我们应用短时傅里叶变换为之后的每个音频实例生成声谱图，以便FGCrossNet可以处理音频数据。我们使用librosa为每个音频生成声谱图，并在实验中将输出谱图图像的大小设置为448×448，这与音频的长度无关。声谱图的示例如图3所示。
（4）对于文本，为了满足FGCrossNet的输入格式，我们设计了一种文本处理方法，整个过程如图5所示。给定一个文本，首先我们将其转换为大小为n×d的向量，通过使用一个热编码对每个字符进行量化，字符嵌入大小为16。此外，我们确定文本的最大字符数为448，因此向量大小为448×16。如果文本的字符数小于448，我们在向量行中填充零。如果字符数较大，则文本将被截断。我们新基准测试中的所有文本数据都少于448个字符，因此不会丢失任何信息。
然后，我们应用了两个分别是224和448个卷积，大小为3的1D卷积层，填充1和步长1，因此输出为448×448。最后，我们应用了一个由3个大小为3，填充为1，步长为1的卷积组成的2D卷积层，因此最终输出为448×448×3，作为FGCrossNet的输入。此外，我们应用位置移位[19]来增加文本数据，以便更好地学习FGCrossNet。

3.3Loss Function

我们设计了一个新的损失函数来驱动FGCrossNet的学习，它联合考虑了三个约束来更好地进行公共表示学习：分类约束确保细粒度子类别的鉴别特征的学习，中心约束保证了同一子类别特征的紧致性，排序约束保证了不同子类别特征的稀疏性。新设计的损失函数定义如下：

其中三项分别表示分类约束、中心约束和排名约束。

3.3.1Classification Constraint

我们使用交叉熵损失函数作为分类约束，以驱动FGCrossNet具有区分一个子类别和其他类似子类别的能力。例如，区分“灰背鸥”和“鲱鱼鸥”。分类约束定义如下：

其中，l(x_k,y_k)是交叉熵损失函数，I、T、V和A分别表示图像、文本、视频和音频的媒体类型。以图像为例，N_I表示训练集中的图像数据的数量，y_k^I表示第k个图像数据的标签，
x_k^I表示第k个图像数据的特征，这是FGCrossNet的FC层的输出，如图4所示。值得注意的是，由于我们绘制了每个视频的25个等距帧，所以N_V表示训练集中所有视频帧的数量。

3.3.2Center Constraint

中心约束，其定义如下：
中心约束定义
为了获得更好的细粒度跨媒体检索性能，同一子类别的特征应该在公共空间中相邻，以最小化类内方差，减少域转移。受聚类启发，我们通过最小化特征到其子类别中心的距离来驱动FGCrossNet的学习。在等式（3）中，x_k表示第k个训练数据的特征，其可以是任何媒体类型。在中心约束中，我们不区分x_k属于哪种媒体类型，而是平等地对待所有媒体数据，因为我们关注同一子类别的特征的紧凑性特性。因此，N表示所有训练媒体数据的数量，c_yk表示y_k子类别中心，该中心在训练阶段每批更新一次，在一批次中根据所有媒体数据的y_k特征计算

3.3.3Ranking Constraint

排名约束，其定义如下：
排名约束定义
由于中心约束是最小化类内方差，排序约束是最大化类间方差。
我们应用四重损失函数来驱动FGCrossNet，使不同子类别的特征输出比相同子类别的特征输出更不相似。
在等式（4）中，x表示训练媒体数据。x_i、x_j、x_k和x_l分别表示4种媒体类型的4个输入实例。这4个实例中有两个限制条件：
（1）它们必须是不同的媒体类型，即一个图像、一个文本、一个视频和一个音频。
（2）它们必须属于3个子类别，其中4个实例中的两个来自同一个子类别，另外两个分别来自左两个子类别。例如，x_i、x_j、x_k和x_l分别表示图像数据、文本数据、视频数据和音频数据，x_i和x_j分别来自“灰背鸥”的子类别，x_k来自“加州海鸥”，x_l来自“鲱鱼鸥”，构成“四鸥”。第3.4节将介绍更多关于四重胎设置的细节。它们的方差由L2距离来度量，表示为d()。α1和α2表示边际阈值，用于确定等式（4）中两项的平衡。我们将它们设置为1和0.5。

3.4Training

3.4.1Input

我们不是只取一个实例作为输入，而是同时取4个实例作为输入，这4个实例分别来自图像、文本、视频和音频。此外，为了计算排名约束，我们限制这4个实例属于3个子类别，这意味着其中两个属于同一个子类别。注意，该设置与媒体类型无关，因此属于相同子类别的两个实例可以是任何媒体类型，并且它们被随机选择为x_i和x_j。

3.4.2Training Strategy

由于FGCrossNet的输入是图像（图像、视频和音频）或类似图像的矩阵（文本），我们首先只将图像数据作为输入来微调我们的FGCrossNet，这是在ImageNet数据集上预先训练的。然后，我们将4种媒体类型的4个实例作为输入，如第3.4.1节所述，通过首先使用分类和中心约束最小化新提出的损失函数L，然后使用所有三个约束来微调FGCrossNet。在微调阶段，学习率从0.001开始，每3个批次下降0.5。

3.5Retrieval

检索时，我们提取FGCrossNet中FC层的输出，作为4种媒体类型的通用表示。然后，我们应用余弦距离来衡量不同媒体数据之间的相似性。最后，我们根据相似性返回结果。

4.EXPERIMENT

为了证明新基准的有用性和FGCrossNet的有效性，我们在新构建的基准上执行细粒度跨媒体检索任务，并与最先进的方法进行比较。

4.1Data and Evaluation Metric

4.1.1Data Division

对于图像和视频，我们遵循原始数据集的分割设置。对于图像，训练集包含5994个图像，测试集包含5794个图像。对于视频，训练集包含12666个视频，测试集包含5684个视频。对于文本，训练集和测试集分别包含4000个文本。对于音频，训练和测试集都包含6000个音频。

4.1.2Evaluation Metric

我们应用平均精度（MAP）分数来评估细粒度跨媒体检索性能。我们首先计算每个查询的平均精度（AP）分数，然后计算它们的平均值作为MAP分数。

4.2Compared Methods

我们将FGCrossNet与最先进的跨媒体检索方法进行比较，包括MHTN、ACMR、JRL、GSPH、CMDN、SCAN、GXN。MHTN通过将知识从单一媒体源域（图像）转移到跨媒体目标域，学习5种媒体类型的通用表示。ACMR通过对抗性学习学习常见的表征。JRL应用半监督正则化和稀疏正则化来学习公共表示。GSPH出了一种广义哈希方法，以保持两种媒体类型之间的语义距离。CMDN首先通过多个深度网络学习每个媒体的单独表示，然后通过堆叠网络生成公共表示。SCAN考虑图像区域和文本词之间的潜在对齐，以了解图像-文本的相似性。GXN将生成过程融入特征嵌入，以学习常见的表示。因为SCAN和GXN是专门为图像和文本之间的跨媒体检索而设计的，不容易扩展到4种媒体类型中的跨媒体检索。因此，我们只在图像和文本的跨媒体检索方面与它们进行了比较，并在4种媒体类型中与其他最先进的跨媒体检索方法进行了比较。

4.3Comparisons with State-of-the-art Methods

在实验中，我们进行了两种类型的检索任务，即双模态细粒度跨媒体检索和多模态细粒度跨媒体检索。我们的FGCrossNet和比较方法的结果如表3至表4所示。
FGCrossNet的双模态细粒度跨媒体检索的MAP分数与现有的所有4种媒体类型的检索方法进行比较
FGCrossNet的双模态细粒度跨媒体检索的MAP分数与现有的所有4种媒体类型的检索方法进行比较
FGCrossNet的多模态细粒度跨媒体检索的MAP分数与现有的所有4种媒体类型的检索方法进行比较
FGCrossNet的多模态细粒度跨媒体检索的MAP分数与现有的所有4种媒体类型的检索方法进行比较
对于比较方法，我们采用相同的特征作为输入进行公平比较。对于图像和视频，如果输入的不是原始图像，我们采用200维CNN特征作为输入，这是从ResNet50的FC层提取的。值得注意的是，ResNet50根据新基准的图像数据进行了微调。对于文本，我们采用1000维的BoW特征作为输入。对于音频，我们采用128维MFCC特性作为输入。

4.3.1Comparisons on Bi-modality Fine-grained Cross-media retrieval

表3显示了FGCrossNet的双模态细粒度跨媒体检索与所有4种媒体类型的现有方法相比的MAP分数。我们可以看到，我们的FGCrossNet实现了比所有方法最好的检索性能。在比较的方法中，MHTN的性能最好，这主要是因为它具有从外部单媒体数据到跨媒体数据的迁移学习能力。但是，FGCrossNet在所有12个双模态细粒度跨媒体检索任务上的MAP分数都高于MHTN。这主要是因为：
（1）FGCrossNet还应用了跨媒体数据之间的传输机制，将知识从图像传输到文本、视频和音频。它不同于MHTN，后者将外部知识转移到跨媒体数据中。
（2）我们设计了一个统一的深度模型来同时学习4种媒体数据，该模型主要具有相似的输入形式和输出，并在一定程度上缩小了异质性差距。
（3）联合考虑分类约束、中心约束和排序约束，使类内方差最小化，类间方差最大化。
SCAN采用了更快的R-CNN来利用对象对应的区域，这不适合我们的新基准，因为图像大多只有一个对象。GXN利用生成模型来改进公共表征学习。它不适合我们的新基准，因为图像没有相应的文本描述。新基准中的文本数据主要侧重于介绍子类别，而不是描述每个图像。因此，它们在新的细粒度跨媒体检索基准上的性能不佳。

4.3.2Comparisons on Multi-modality Fine-grained Cross-media retrieval

我们还进行了多模态细粒度跨媒体检索，以验证FGCrossNet的有效性，结果如表4所示。这种趋势与双模态细粒度跨媒体检索相同，FGCrossNet实现了最好的检索性能。值得注意的是，FGCrossNet在4种媒体类型的通用表示学习上具有优势，它是一个统一且简单的深度模型，可以同时生成图像、文本、视频和音频的特征。在比较的方法中，只有MHTN可以同时学习4种媒体类型的公共表示。虽然MHTN可以同时学习4种媒体类型的通用表示，但其模型很复杂，每种媒体类型都有一个特殊设计的网络流。对于其他比较的方法，他们学习两种模式之间的共同表示，这增加了训练和测试的复杂性。拿I→All为例子，我们首先在两种模式之间进行双模式细粒度跨媒体检索，并使用它们相应的公共表示，I→T、 I→V和I→A.然后我们将他们的结果和I→I结果结合起来作为最终结果I→All。

4.4Ablation Study

为了验证FGCrossNet中每个约束的效果，我们进行了消融实验。结果如表5所示。
FGCrossNet中每个约束的影响
我们可以观察到：
（1）“分类约束”表示仅使用分类约束来训练我们的FGCrossNet，这也比所有比较的方法获得了更好的检索性能。这表明分类约束可以帮助FGCrossNet学习能够区分相似子类别的区分特征。
（2） “+中心约束”表示在分类约束的基础上额外使用中心约束。与仅使用分类约束相比，该算法的检索性能提高了0.043，这是因为中心约束将同一子类别的特征强制聚集到其子类别中心。
（3） “+排名约束”表示在FGCrossNet的损失函数中应用所有三个约束，除了"I→A"和"A→I"实现了最好的性能。排序约束的重点是区分不同子类别的特征，这有助于提高检索性能。

5.CONCLUSION

在本文中，我们做了两个重点：
（1）一个新的基准——我们构建了一个新的细粒度跨媒体检索基准，它是媒体类型最多、细粒度子类别最丰富的最大基准。这将鼓励对细粒度跨媒体检索的进一步研究。
（2）我们提出了一种新的方法FGCrossNet，它是一个统一的深度模型，可以同时学习4种媒体的常见表示。我们联合考虑了分类约束、中心约束和排序约束来指导公共表征学习。大量实验验证了新基准的有效性和FGCrossNet的有效性。
未来的工作将在两个方面展开：
（1）任务扩展——我们将进一步探索其他任务的可能性，例如分类和推理。
（2）知识转移——在本文中，我们发现图像或视频的性能明显更好，我们将关注如何将图像或视频的知识转移到文本和音频中，以获得更好的检索性能。