DANNet: A One-Stage Domain Adaptation Network for Unsupervised Nighttime Semantic Segmentation阅读
https://paperswithcode.com/paper/dannet-a-one-stage-domain-adaptation-network
摘要
在自动驾驶中,夜间图像的语义分割与白天图像具有同样重要的作用,但由于光照差和费力的人工注释,前者更具挑战性。在本文中,我们提出了一种新的域自适应网络(DANNet)用于夜间语义分割,而不使用标记的夜间图像数据。它采用了一个对抗性训练,使用一个标记的白天数据集和一个包含粗对齐的昼夜图像对。具体来说,对于未标记的昼夜图像对,我们使用日间图像上静态对象类别的像素级预测作为伪监督来分割其对应的夜间图像。我们进一步设计了一种重加权策略,以处理昼夜图像对错位和日间图像预测错误所导致的不准确性,并提高小物体的预测精度。所提出的DANNet是第一个用于夜间语义分割的单阶段自适应框架,它没有训练额外的昼夜图像传输模型作为一个单独的预处理阶段。在 Dark Zurich和Nighttime Driving数据集上的大量实验表明,我们的方法实现了最先进的夜间语义分割性能。
介绍
许多研究人员已经开始在各种退化条件下分割更具挑战性的图像,比如在雾天天气或夜间条件下拍摄的图像。本文主要研究夜间图像的语义分割,它在自动驾驶中具有广泛而重要的应用。
有许多难以识别的区域和视觉危害,例如曝光和运动模糊,通常即使人类建立高质量的像素级注释的夜间场景图像作为地面真相,然而,这是一个先决条件训练许多深度神经网络语义图像分割。为了解决这一问题,人们提出了几种域自适应方法,将语义分割模型从白天转移到夜间,而不需要在夜间领域使用标签。例如,在[8,33,35]中,一个中间的黄昏域被视作建立白天到夜间之间适应的桥梁。在[33,30,37,26,35]中,训练一个图像传输网络来设计夜间或白天的图像,并构建合成数据集。所有这些方法都需要一个额外的预处理阶段来训练白天和夜间之间的图像转换模型。这不仅耗时,而且使第二阶段密切依赖于第一阶段。特别是,当域差距较大时,很难生成与原始图像共享完全相同的语义信息的转换图像。
在本文中,我们提出了一种新的基于对抗性学习的单阶段域自适应网络(DANNet)(如图1所示),利用最新发布的Dark Zurich数据集,其中包含使用GPS记录粗对齐的未标记的昼夜场景图像对。提出的DANNet从Cityscapes数据到 Dark Zurich daytime(Dark Zurich-D)和夜间数据(Dark Zurich-N)进行多目标适应。具体来说,我们首先将包含带有标签的大型训练数据的Cityscapes调整到Dark Zurich-D,因为它们都是在白天拍摄的。然后,在网络训练中,使用Dark Zurich-D的预测作为Dark Zurich的伪监督。我们应用一个图像重构子网络,使来自不同区域的图像的强度分布更加接近。我们加入了一个权重共享语义分割网络来对重新定位的图像进行预测,并在输出空间中执行对抗性学习,以确保在不同领域之间的布局非常接近。我们进一步设计了一种概率重加权策略,以处理昼夜图像对错位和日间图像预测错误所导致的不准确性,并提高小物体的预测精度。
工作的主要贡献总结如下:
-
我们提出了一种多目标域适应网络DANNet,用于对抗学习的夜间语义分割。DANNet由一个图像重光照网络和一个语义分割网络以及两个鉴别器组成。据我们所知,所提出的DANNet是第一个用于夜间语义分割的一阶段自适应框架。
-
我们证明,Dark Zurich对图像的分割可以为相应的Dark Zurich-N图像的分割提供伪监督。特别的结果表明,重加权策略可以显著提高小物体的分割。
方法
我们的方法涉及一个源域S和两个目标域Td和Tn,其中S、Td和Tn分别代表城市景观(白天)、Dark Zurich-D(白天)和Dark Zurich-N(夜间)。请注意,在训练中,只有城市景观的源域S具有地面真实的语义分割。所提出的DANNet同时进行了从S到Td和S到Tn的域自适应,它由三个不同的模块组成:一个图像重光照网络、一个语义分割网络和两个鉴别器,如图所示。
DANNet结构图
网络结构
下面详细阐述了建议的DANNet的所有模块:
RelightNet:我们设计了一个图像重光照网络,使不同区域的图像强度分布接近,从而使后期的语义分割网络对光照变化的敏感性较低。重光照网络从这三个域中获取场景图像Is、Itd和Itn,并分别生成重构图像Rs、Rtd和Rtn。重光照网络为来自这三个域的所有输入图像共享权重,该网络的详细结构见图。图像重光照网络的结构。它由四个卷积层、三个残差块和两个反卷积层组成,每个卷积层后面都是一个批处理归一化层。然后将最后一层的输出添加到输入图像中,以获得重新定位的图像。
图像重光照网络结构图
语义分割网络:在我们的方法中,我们选择并测试了三种流行的语义分割网络:Deeplab-v2[3],RefineNet[23]和PSPNet[51]。请注意,所有它们的共同主干都是ResNet-101[14]。对于这个模块,我们共享来自这三个域的所有输入图像的权重。语义分割网络以Rs、Rtd和Rtn为输入,分别对这三个域进行分割预测(类别-似然图)Ps、Ptd和Ptn。图像重光照网络和语义分割网络的组成构成了所提出的DANNet的生成器G。
Discriminators:正如在[38]中所做的那样,鉴别器被设计成通过在输出空间中进行对抗性学习来区分分割预测是来自源域还是来自任何一个目标域。我们在[38]之后修改了[28]中的架构,利用了所有的全卷积层。特别是,它包括5个卷积层,通道数为{64、128、256、256、1},内核大小为4×4。前两个卷积层的步幅为2,其余两层为1。由于我们有两个目标域Td和Tn,我们设计了两个鉴别器Dd和Dn来区分输出是来自S还是Td,来自S还是Tn。这两个鉴别器共享相同的结构和权重,并被联合训练。
概率重新加权
由于不同对象类别的像素数量在源域中是不平衡的,在训练鉴别器中,网络训练通常通过预测一个像素为道路、建筑、树等大型对象的类别而更容易收敛。在这种情况下,很难正确预测在数据集中具有注释相对较少的小对象的像素,如极点、符号和光。为了解决这个问题,我们提出了一种重新加权预测的类别-似然图的策略。具体来说,对于每个类别k∈C,我们首先定义一个权重
其中,ak为在源域中被标记为类别k的所有有效像素的比例。显然,ak的值越小,w‘ k的值就越大,并且使用这样的权重可以帮助分割较小大小的对象的类别。在我们的实验中,我们进一步通过
其中,和分别为w‘ k,k∈C的均值和标准差。参数std和avg是我们预先选择的两个正常数,以使wk的值范围主要为正。在训练过程中,我们根据经验设置了std=0.05和avg=1.0。然后,我们将每个归一化的权值wk与预测的似然映射P的相应类别通道相乘,其中P∈{Ptd,Ptn}。
实验
数据集:Dark Zurich、Nighttime driving、Cityscapes
预先训练(Pre-trained)的语义分割模型在Cityscapes和 Dark Zurich验证集上的mIoU性能。
每个类别的结果在Dark Zurich测试集由目前最先进的方法和我们的DANNet。Cityscapes→DZ-night指从Cityscapes到Dark Zurich-night的适应。最好的结果以粗体显示,第二好的结果下划线。
比较我们的DANNet与一些现有的最先进的方法在Nighttime driving测试集
DANNet (PSPNet)在Dark Zurich-val的消融实验