Single Image Dehazing via Multi-scale Convolutional Neural Networks with Holistic Edges
译为:基于整体边缘多尺度卷积神经网络的单幅图像去噪
作者:Xiaochun Cao、Wenqi Ren、Jinshan Pan、Hua Zhang和Ming-Hsuan Yang
Abstract
Introduce
开局介绍很正常,太经典了,所有去雾的论文都绕不过的几种形式:1.介绍雾霾对计算机视觉的影响,因此我们需要去除雾霾,然后巴拉巴拉,前人的工作有———He,…,Cai,…(这两个我觉得一个是传统中的经典之作,He——DCP,一个算是深度学习中的去雾的开山之作,cai——DehazeNet);2.近年来的工作是什么,谁谁谁取得了巨大进展。
接着二者最后几乎都会引向大气散射模型模型。这篇是第二种形式。近年来工作进展,很明显差不多。接着就到了大气散射模型的介绍了。老生常谈的,
I
(
x
)
=
J
(
x
)
t
(
x
)
+
A
(
1
−
t
(
x
)
)
I(x)=J(x)t(x)+A(1-t(x))
I(x)=J(x)t(x)+A(1−t(x))
- I ( x ) I(x) I(x)即输出的雾霾图像
- J ( x ) J(x) J(x)即要恢复的场景亮度或者说是干净图像,剩下即是两个关键参数
- A A A是全球大气光
- t ( x ) t(x) t(x)是传输矩阵
- 而 t ( x ) t(x) t(x)定义为: t ( x ) = e − β d ( x ) t(x)=e^{-\beta d(x)} t(x)=e−βd(x)
- 其中 β \beta β是大气的散射系数
-
d
(
x
)
d(x)
d(x)是物体和相机之间的距离(distance)
如果我们知道大气光A和透射比t(x),可以根据(1)恢复清晰场景的辐射度J(x)。因为只有输入图像I(x)是已知的,所以单图像去叠是一个不适定的问题。
- 提出了一种多尺度CNN来从模糊图像中学习有效的特征,用于场景传输图的估计。场景传输图首先由粗比例尺网络估计,然后由细比例尺网络细化。
- 提出了一种基于模糊图像整体边缘信息的整体边缘引导网络来细化传输图
- 从纽约大学深度数据集那里,开发了一个由模糊图像及其传输图组成的基准数据集。
- 性能优异。
Related Word
介绍了早期的去雾历史:
紧接着就是机器学习在CV领域的成功,导致数据驱动的去雾模型变得很流行。以下是文中出现的三个人:
- 在蔡等人(2016)中,使用深度神经网络进行透射估计(DehazeNet),然后按照传统方法估计大气光。然而,蔡等人基于图像块的上下文独立于传输图的假设合成模糊图像,这在实践中并不成立。此外,该网络在补丁级别进行训练,并充分利用来自更大区域的高级信息。
- Li等人(2017)提出了大气散射模型,其中大气光和透射图以矩阵形式表示,并提出了一个AOD网络来直接估计清晰图像,而不是分别估计透射图和大气光。虽然AOD网络算法并不明确要求估计透射图和大气光,但它需要估计矩阵的参数。由于矩阵预测不使用透射图的信息,这些最终恢复的图像仍然包含一些烟雾残留物。
- 与这些基于学习的方法不同,该文章的算法直接从haze图像中估计传输图,其中所提出的网络在训练过程中受到地面真实传输图的约束。像这样的它能够保持模糊图像和传输图之间的相关性,从而获得更逼真的图像。此外,我们提出了一种新的多尺度CNN,该CNN具有整体边缘引导网络,可以自动学习模糊图像和传输图之间的映射。
Multi-scale Network for Transmission Estimation
本章是来说明算法大概的思路和不同的模块
分为3个模块:
-
粗尺度网络
粗比例尺网络的任务是预测场景的整体传输图。粗尺度网络包含四个特征提取层。除最后一层外,每个卷积层后面是校正线性单元(ReLU).
卷积层该网络将RGB图像作为输入。卷积层由与输入特征映射卷积的滤波器组组成。每个卷积层的响应如下所示:
f n l + 1 = σ ( ∑ m ( f m l ∗ k m , n l + 1 + b n l + 1 ) ) f_n^{l+1}=\sigma(\sum_m(f^l_m*k^{l+1}_{m,n}+b^{l+1}_n)) fnl+1=σ(m∑(fml∗km,nl+1+bnl+1))
详细参数看文章: -
细尺度网络
由细比例尺网络进行细化。这个网络中的感受野比粗尺度网络中的感受野小。除了第一和第二卷积层之外,细尺度网络堆栈的结构与粗尺度网络相似。我们的精细尺度网络结构如图2b(橙色虚线矩形)所示,其中粗输出传输图用作附加的低层特征图。我们在精细比例网络中将这两个连接在一起,以优化场景传输图。此外,我们使用零填充卷积来保持后续层中特征映射的大小。
读者感觉:这里可能是因为选择的卷积核小,所以感受野更小一些。
感受野:感受野(Receptive Field)的定义是卷积神经网络每一层输出的特征图(feature map)上的像素点在输入图片上映射的区域大小。再通俗点的解释是,特征图上的一个点对应输入图上的区域。简单的说:好比一个图像经过几次卷积之后的1×1像素,这个像素是好多次3×3的卷积核卷积过提取的特征。那么这个特征是一开始从多大的矩阵拿过来的呢?
例如:两层3×3的卷积核卷积操作之后的感受野是5×5,其中卷积核(filter)的步长(stride)为1、padding为0,如下图所示:
-
整体边缘引导网络
-
损失函数
多尺度网络去雾
- 大气光估计
- 雾霾去除
实验效果
在两个合成数据集和真实模糊图像上对所提出的算法进行了定量评估,并在准确性和运行时间方面与最先进的方法进行了比较。实施守则将向公众公布。在之前的工作(Ren等人,2016年)中,多尺度CNN被称为MSCNN,而提议的具有整体边缘引导网络的多尺度CNN被称为MSCNN-HE。
**训练参数:**实验设置该网络采用随机梯度下降法进行训练。动量值、重量衰减参数和批次大小设置为
0.9
0.9
0.9,
5
×
1
0
−
4
5×10^{-4}
5×10−4和
10
10
10。每一批都是一个整体图像,其大小为320×240像素。初始学习率为0.001,每20个迭代后降低0.1,迭代数设置为70。在配备2.8 GHz CPU和NVIDIA K40 GPU的台式计算机上,训练时间约为10小时。
**训练数据:**用合成的模糊图像及其相应的传输图生成一个数据集。尽管存在一些室外数据集,但与现有的室内数据集(Sil berman等人,2012年)相比,深度图的精度和完整性更低。因此,我们从纽约大学深度数据集(Silberman et al.2012)中随机抽取6000张干净的图像和相应的深度图来构建训练集。此外,我们使用米德尔伯里立体数据集(Scharstein and Szeliski 2002,2003)生成了一组50幅合成模糊图像的验证集。我们生成随机大气光A=[k,k,k],其中k∈ [0.7,1.0],并随机抽取三个β∈ [0.5,1.5]适用于每幅图像。
我们使用消色差大气光,因为非消色差大气光(这里我觉得翻译成无色大气光好一点吧?)往往会产生一些不自然的棕红色或绿蓝色图像
剩下对于分析,肯定都是扯。。。太经典了。有数据优越性体现怎么扯都可以的!
Conclusion
总结了一下,内容如下:
- 本文使用了多尺度深度网络解决图像去雾问题,该网络学习有效特征来估计单个雾霾图像的场景传输图。
- 本文的方法比以往需要仔细设计特征和组合的策略相比较更为容易实现和复现。
- 本文模型:先使用粗尺度网络学习场景传输图来进行细化。然后使用细尺度网络利用局部信息和粗尺度网络的输出进行细化。接着提出一个整体的边缘引导网络,来确保相同深度的对象有相同传输值。
- 实验得出在合成图像和真实图像上的实验结果证明了算法的有效性。