背景渐变动画登录页-CFANZ编程社区

本系列文章只做简要总结，不详细说明原理和公式。

1. 参考文章

2. 主要作用

BN层主要是为了解决网络训练过程中出现的internal Covariate Shift（内部协方差偏移，简成ICS）问题。ICS问题会导致随着网络深度的加深，训练越来越困难，收敛越来越慢。

具体可以分为三个作用：
  1.正则化，降低过拟合。
  2.提高模型收敛速度，加速训练。
  3.减少梯度爆炸或者梯度消失的情况。

3. 具体分析

3.1 正则化，降低过拟合

我个人理解：首先网络过拟合说明网络对于训练集的数据分布学习的太好了，几乎完全一样了。这样会导致网络缺乏泛化性。BN层作为一种标准化方法，可以将所有的数据分布统一成标准正态分布，减少方差大的特征（离散特征）对于整体数据分布的影响^[5]， 从而让网络更加关注共性特征，降低对离散特征的学习，提高泛化性。

3.2 提高模型收敛速度，加速训练

在第二章中，我们提到网络之所以难以收敛，主要是因为ICS问题导致的数据分布偏移，从而出现激活函数梯度消失现象。从下图中（来自博客[5]）可以看到，经过标准化后，数据都会集中在均值为0，方差为1的正太分布中，这个数据分布正好是激活函数中梯度响应最大的区域，可以有效地提高模型的收敛速度，加速模型训练。