MM2022 | 用StyleGAN进行数据增强，真的太好用了-CFANZ编程社区

MM2022 | 用StyleGAN进行数据增强，真的太好用了

【写在前面】

本文研究了生成文本-图像对的开放性研究问题，以改进细粒度图像到文本跨模态检索任务的训练，并提出了一种通过揭示StyleGAN2模型隐藏的语义信息来增强配对数据的新框架。具体来说，作者首先在给定的数据集上训练StyleGAN2模型。然后，将真实图像投影回StyleGAN2的潜在空间，以获得潜在代码。为了使生成的图像具有可操作性，进一步引入了潜在空间对齐模块来学习StyleGAN2潜在代码与相应文本字幕特征之间的对齐。当进行在线配对数据增强时，作者首先通过随机token替换生成增强文本，然后将增强文本传递到潜在空间对齐模块以输出潜在代码，最后将潜在代码馈送到StyleGAN2以生成增强图像。作者在两个公共跨模态检索数据集上评估了本文的增强数据方法的有效性，其中有希望的实验结果表明，增强的文本-图像对数据可以与原始数据一起训练，以提高图像到文本的跨模态检索性能。

1. 论文和代码地址

MM2022 | 用StyleGAN进行数据增强，真的太好用了_数据

Paired Cross-Modal Data Augmentation for Fine-Grained Image-to-Text Retrieval（1%25200%25200%2520-1%25200%25200)%2522%2520aria-hidden%253D%2522true%2522%253E%250A%2520%253Cuse%2520xlink%253Ahref%253D%2522%2523E1-MJMATHI-45%2522%2520x%253D%25220%2522%2520y%253D%25220%2522%253E%253C%252Fuse%253E%250A%2520%253Cuse%2520transform%253D%2522scale(0.707)%2522%2520xlink%253Ahref%253D%2522%2523E1-MJMATHI-6C%2522%2520x%253D%25221044%2522%2520y%253D%2522-213%2522%253E%253C%252Fuse%253E%250A%253C%252Fg%253E%250A%253C%252Fsvg%253E%22%2C%22id%22%3A%221664240137255%22%2C%22type%22%3A%22inline%22%7D"> , 其中，文本特征映射为与相应的潜在代码w对齐。

阶段3：以在线方式进行跨模态数据扩充。通过随机token替换来构造增强文本。然后，将增强文本输入到经过训练的对齐模块中 , 其输出可用作StyleGAN2的潜代码w以生成增强图像。

3.1 Image projection to latent space

StyleGAN2模型可以表示为，其中模型使用多层感知器 (MLP) 将初始噪声空间Z映射到样式潜在空间W。然后，StyleGAN2根据解纠缠空间W的潜在代码w生成图像。在给定数据集上训练StyleGAN2模型后，将真实图像投影回潜在空间W。

在这个模块中，将潜在代码w∈ W用于优化。具体地说，首先运行10000个随机噪声输入z，以产生映射的潜代码w=MLP（z）。使用平均值作为w的初始化，并且w的近似尺度可以设置为：，是到中心的平均平方欧几里德距离。作者采用作为生成图像的输入，其中𝑘 从一逐渐变为零。高斯噪声在w上的使用增加了优化过程的随机性，并使全局最优解的找到变得稳定。

作者的目标是从投影的潜在代码的重建图像与原始真实图像x相同。为此，作者采用感知损失作为优化目标，其可以表示为：

其中，表示VGG 特征提取模型。优化结果是可以重建给定真实图像的最接近的潜码。

3.2 Latent space alignment

对于图像x，将图像投影到潜在空间W，得到相应的潜在码。StyleGAN2的潜在空间W已被证明与语义内容分离，其具有与文本特征空间相同的属性。因此可以将文本表示映射到与W相同的空间。此外，由于文本表示可以随原始文本输入进行语义更改，当可以实现文本特征空间和StyleGAN2潜在空间W之间的多模式对齐时，生成的图像可以用给定的文本进行操作。

具体来说，作者采用了LSTM为了对文本标题进行编码𝑆 并输出文本表示, t与w的特征尺寸相同。由于图像和潜在代码之间以及图像和文本之间的配对关系可用，可以采用成对排序损失来学习t和之间的对齐 ,：

表示文本编码器的参数 , 这是潜在空间对齐模块，在训练期间固定。

这是学习文本编码器特征空间和StyleGAN2潜在空间W之间对齐的简单而有效的方法，可以利用StyleGAN2的不可分离性并揭示潜在空间W的隐藏语义结构，从而生成的图像可以通过文本进行操作。在对潜在空间对齐模型进行训练后，将文本数据输入到训练后的模型中 , 输出文本表示可以被视为StyleGAN2生成图像的潜在代码w。

3.3 Online paired data generation

根据标题，获得了词汇表𝑉 由给定数据集的所有现有单词组成。此外，对于标题中的每个单词token，作者采用spaCy库进行词性标注，例如形容词和名词。然后，作者还收集了一个POS词汇表 , 其中可以从词性标注中检索一组词。

给定标题词token列表, 作者首先基于替换率𝑟在S中选择部分token , 然后在中随机选取其他token 𝑉 或以替换选定的原始token。随机替换后的token列表可以表示为增强文本数据。然后输入增强文本进入经训练的潜在空间对准模块, 输出可以用作StyleGAN2生成增强图像的潜在代码。值得注意的是，更换率𝑟 以及增强策略（例如𝑉 或 ) 是超参数，下面的算法描述给出了完整的过程。

MM2022 | 用StyleGAN进行数据增强，真的太好用了_数据集_31

在一个mini-batch中，有原始文本图像对𝐷 = (𝑆, 𝐼) 以及增强对用于训练。在这里，作者使用提出的在线配对数据增强方法进行跨模态检索任务。分别表示文本和图像编码器。和表示mini-batch中原始数据和增强数据的提取特征集。

作者采用triplet损失来学习文本和图像数据之间的相似性，如下所示：

这意味着当使用图像时作为anchor样本，配对文本用作正样本。然后选择一个文本或图像来自不同对的样本作为负样本。作为anchor的文本数据的三元组可以以类似的方式构造。求和符号意味着构造三元组，并对mini-batch的所有文本和图像实例进行训练，包括原始数据𝐷 以及增强数据。为了提高训练的有效性，我们采用了难例样本挖掘方法。

4.实验

作者有两种文本替换策略，即随机替换和POS替换。这两种策略的区别在于，随机替换从要替换的整个词汇表，而词性替换考虑被替换单词的词性token，并检索另一个具有相同词性token的随机单词来替换。

MM2022 | 用StyleGAN进行数据增强，真的太好用了_数据集_42

在上表中，作者展示了使用随机替换策略训练的模型的评估性能。

MM2022 | 用StyleGAN进行数据增强，真的太好用了_数据_43

在上表中，作者给出了POS替换策略的结果，其中替换率𝑟 = 0.7用于以下所有实验。

MM2022 | 用StyleGAN进行数据增强，真的太好用了_数据集_44

上表展示不同实验设置下的实验结果。

MM2022 | 用StyleGAN进行数据增强，真的太好用了_模态_45

CUB上现有的跨模态检索工作主要集中在类级检索设置上，作者将提出的方法与上表中的各种模型进行了比较。

MM2022 | 用StyleGAN进行数据增强，真的太好用了_模态_46

上表展示了对比各种Recipe1M instacne级检索基准，评估本文提出的方法的性能。

MM2022 | 用StyleGAN进行数据增强，真的太好用了_数据_47

上表展示了在COCO数据集上的检索结果。

MM2022 | 用StyleGAN进行数据增强，真的太好用了_数据集_48

上图展示了从增强文本生成的增强图像的可视化，其中使用随机替换策略。

MM2022 | 用StyleGAN进行数据增强，真的太好用了_数据集_49

上图展示了原始图像和增强图像

5. 总结

本文提出了一种新的配对跨模态数据增强框架，该框架可以生成无限量的配对数据来训练跨模式检索模型。具体来说，作者使用随机文本替换策略来生成增强文本。为了从增强文本中生成相应的增强图像，首先采用StyleGAN2模型生成高质量和多样性的图像。然后，提出通过本文的潜在空间对齐模块来弥合文本和图像数据之间的差距，该模块将文本特征映射到StyleGAN2的潜在空间W。作者使用StyleGAN2的学习对齐模块的输出来生成增强图像，从而获得增强文本-图像对。通过两个公共数据集上的图像到文本检索任务，作者进一步评估了增强数据的质量。实验结果表明，提出的方法可以在几个不同的基准上有效地提高最新模型的性能。