0
点赞
收藏
分享

微信扫一扫

FCNs in the Wild: Pixel-level Adversarial and Constraint-based Adaptation

Hoffman J, Wang D, Yu F, et al. Fcns in the wild: Pixel-level adversarial and constraint-based adaptation[J]. arXiv preprint arXiv:1612.02649, 2016.

2016年 CVPR

这篇论文,是将域适应(DA)用在语义分割上的第一篇论文。其提出通过对语义分割的特征提取器提取出来的特征送入到这个判别器里面,然后通过对齐Global的信息,完成分割任务上的迁移。

0.摘要

用于密集预测的完全卷积模型已被证明在广泛的视觉任务中是成功的。这种模型在有监督的情况下表现良好,但在人类观察者看来温和的(微小的)领域变化下,其表现可能会出人意料地差。例如,在一个城市进行训练,在另一个不同的地理区域和/或天气条件下进行测试,可能会因为像素级的分布变化而导致性能大幅下降。在本文中,我们介绍了第一个领域自适应语义分割方法,提出了一种无监督的对抗性方法来解决像素预测问题。我们的方法包括全局和类别特定的适应技术。全局领域的调整是通过一个具有完全卷积领域对抗性学习的新型语义分割网络进行的。这个最初适应的空间,然后通过约束性弱学习的泛化来实现类别的具体适应,并将空间布局从源域明确转移到目标域。我们的方法在多个大规模数据集的不同设置中都优于baseline,包括适应各种真实的城市环境、不同的合成子域、从模拟环境到真实环境,以及在一个新的大规模仪表盘数据集上。

1.简介

语义分割是一项关键的视觉识别任务,适用于各种应用,包括自主代理任务,如机器人导航和自动驾驶汽车,以及对自然界的映射和分类。因此,最近有大量的工作被引入来解决有监督的语义分割问题,使用像素注释的图像来训练卷积网络[20, 1, 23, 34, 19, 4, 33]。

虽然在同一数据源上训练和评估的分割模型的性能正在提高,但探索这些模型对新的相关领域的适用性的研究还很有限。在考虑适应视觉领域之间的分类时面临的许多挑战,如外观、照明和姿势的变化,在考虑适应语义分割时也存在。此外,在考虑识别与定位任务时,一些新的因素显得更加突出。在分类和分割中,不同领域的类的普遍性可能不同,但这种差异在语义分割应用中可能更加夸张,因为单个物体类现在可能在一个场景中出现多次。例如,自动驾驶应用的语义分割将集中在具有不同大小的物体的室外街道场景,这些物体的分布可能在不同的城市或驾驶路线之间有所不同;此外,当适应只使用室内场景图像训练的人的识别模型时,外观统计可能会有很大的变化。此外,像素级的注释收集起来既昂贵又繁琐,因此,学会在相关设置之间分享和传递信息特别有吸引力。

在这项工作中,我们提出了第一个无监督的领域适应方法,用于跨图像领域的语义分割FCN的转移。我们方法的第二个贡献是将全局和局部对齐方法结合起来,使用全局和类别特定的适应技术,这些技术本身就是单独的创新贡献。我们使用卷积域对抗训练技术对源数据和目标数据的全局统计数据进行调整,使用以前的图像级分类方法的新扩展[32, 6, 7]。给定一个领域对齐的表示空间,我们引入了一个通用的受限多实例损失函数,它扩展了弱标签学习[26, 25, 27, 24, 14],但可以应用于目标领域,不需要任何额外的注释,并明确地从有标签的源数据集转移类别布局信息。

我们使用多个大规模的数据集来评估我们的方法。我们首先利用最近发布的来自GTA5[28]和SYNTHIA[29]数据集的合成驾驶摄像机数据,以研究从模拟图像到CityScapes[3]中的真实图像的巨大适应性转变。接下来,我们在SYNTHIA数据集内探索跨季节适应的领域转变。然后,我们关注现实世界中跨城市的适应性。我们对CityScapes数据集中的跨城市适应进行了详细的定量分析。

我们论文的最后一个贡献是引入了一个新的无约束的驾驶摄像机数据集,用于语义分割,即伯克利深度驾驶分割(BDDS)。下面我们展示了从Cityscapes城市到BDDS中的城市的初步定性适应结果。在所有这些研究中,我们表明我们的适应算法在没有任何目标注释的情况下提高了目标语义分割的性能。

2.相关工作

语义分割 略

领域适应 计算机视觉中的领域适应主要集中在图像分类上,许多工作致力于在物体的库存照片和在世界范围内拍摄的相同物体之间进行领域转换的概括[30, 17, 8]。最近的工作包括[32, 6, 7],这些工作都学习了一个特征表示,鼓励两个领域之间的最大混淆。其他工作旨在通过最小化特征在两个领域中的分布距离来调整特征[21, 22]。基于生成对抗网络[9],Liu等人提出了耦合生成对抗网络来学习来自源数据集和目标数据集的图像的联合分布[18]。

对于其他重要的计算机视觉任务,如检测和分割,人们给予的关注要少得多。在检测方面,Hoffman等人提出了一个领域适应系统,明确地模拟了分类和检测模型之间的表示法转变[11],以及一个后续工作,其中包括使用多实例学习的每个类别适应[12]。检测模型后来被转化为FCN,用于评估语义分割性能[13],但这项工作并没有提出任何分割的具体适应方法。据我们所知,我们的方法是第一个为语义分割模型引入领域适应技术的方法。

3. 全卷积适应模型

在这一节中,我们描述了我们使用全卷积网络(FCN)进行语义分割的适应性算法,这些领域共享一个共同的标签空间。在不丧失通用性的情况下,我们的方法可以应用于其他分割模型,不过由于FCNs的广泛影响,我们在这里重点讨论FCN。我们认为可以访问一个源域S,它既有图像I S,又有标签L S。我们训练一个只用于语义分割的源模型,该模型产生一个像素级的每类别得分图φ S(I S)。

我们的目标是学习一个语义分割模型,该模型适用于无标签的目标域T,该域有图像I T,但没有注释。我们把这种网络的参数表示为φ T(-)。如果源域和目标域之间没有领域转换,那么我们可以简单地将源模型直接应用于目标域,而不需要采用适应性方法。然而,在源标记域和目标测试域的分布之间通常存在着差异。

因此,我们提出了一种无监督的适应方法。我们首先指出,有两个主要的机会进行领域转移。首先,两个领域之间可能发生全局性的变化,导致相应特征空间的边际分布转移。这可能发生在任何两个不同的领域之间,但在非常不同的领域之间的大转变中会最明显,比如在模拟领域和真实领域之间的适应。第二个主要的转变是由于类别的具体参数变化而发生的。这可能是由于个别类别在两个领域中具有特定的偏见。例如,当在两个不同的城市之间进行调整时,汽车的分布和标志的外观可能会发生变化。

我们提出了一个用于适应语义分割模型的无监督领域适应框架,该框架直接解决了最大限度地减少全局和类别特定的转变的需要。对于我们的模型,我们首先做了一个必要的假设,即源域和目标域共享相同的标签空间,并且源模型在目标域上取得的性能大于机会。然后,我们引入了两个新的语义分割损失目标,一个是最小化全局分布距离,在源图像和目标图像上操作,L da (I S , I T ) 。另一个是利用目标图像和从源域P L S转移的标签统计数据来调整类别规格参数,L mi (I T , P L S )。最后,为了确保我们不会与源解决方案相差太远,已知这对最终的语义分割任务是有效的,我们继续优化源域上的标准监督分割目标,L seg (I S , L S )。总之,我们的自适应学习方法是为了优化以下的联合目标。

我们在图2中说明了整个适应框架。源域数据被用来更新标准的监督损失目标,该目标是用源域的像素注释训练的。在完全卷积域对抗训练中,源域和目标域的数据都是在没有任何类别注释的情况下使用的,以最小化两个域之间特征空间的全局距离。最后,在目标图像上使用受限的像素化多实例学习目标进行类别规格的更新,并使用源类别的统计数据来确定约束。

注意,我们的方法可以普遍应用于任何基于FCN的语义分割框架。在我们的实验中,我们使用最近提出的基于16层VGGNet[31]的前端扩展全卷积网络[33]作为我们的基础模型。有16个卷积层,其中最后三个卷积层由全连接层转换而来,称为fc 6 , fc 7 , fc 8,然后是8次双线性上样层,以产生与输入图像相同分辨率的分割。

举报
0 条评论