在这里插入图片描述

Batch Normalization

称为批标准化。批是指一批数据，通常为 mini-batch；标准化是处理后的数据服从 $N (0, 1)$ 的正态分布。在训练过程中，数据需要经过多层的网络，如果数据在前向传播的过程中，尺度发生了变化，可能会导致梯度爆炸或者梯度消失，从而导致模型难以收敛。

假设输入的 mini-batch 数据是 $B={x_1...x_m}$ ，Batch Normalization 的可学习参数是 $\gamma, \beta$ ，步骤如下：

求 mini-batch 的均值： $\mu_B\gets \frac{1}{m} {\textstyle \sum_{i=1}^{m}}x_i$
求 mini-batch 的方差： $\sigma_B^2\gets \frac{1}{m} {\textstyle \sum_{i=1}^{m}}(x_i-\mu _B)$
标准化： $\widehat{x_i} \gets \frac{x_i-\mu_B}{\sqrt{\sigma_B^2+\epsilon } }$ ，其中 $\epsilon$ 是防止分母为 0 的一个数。
affine transform(缩放和平移)： $y_i\gets \gamma \widehat{x_i} +\beta\equiv BN_{r,\beta}(x_i)$ ，这个操作可以增强模型的 capacity，也就是让模型自己判断是否要对数据进行标准化，进行多大程度的标准化。如果
$\gamma=\sqrt{\sigma_B^2}, \beta=\mu_B$ ，那么就实现了恒等映射（前三步做标准化，这步做标准化的反变换）。

Batch Normalization 层一般在激活函数前一层。

在 PyTorch 中，有 3 个 Batch Normalization 类：

nn.BatchNorm1d()，输入数据的形状是 $\times C \times 1D feature(L)$ ：length
nn.BatchNorm2d()，输入数据的形状是 $\times C \times 2D feature(H \times W)$ ：hight, weight
nn.BatchNorm3d()，输入数据的形状是 $\times C \times 3D feature(T \times H \times W)$ ：time, hight, weight

torch.nn.BatchNorm1d(num_features, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)

例如，输入数据的形状是 $\times C \times 2D feature$ ，(3, 2, 2, 2, 3)，表示一个 mini-batch 有 3 个样本，每个样本有 2 个特征，每个特征的维度是 2 x 2 x3。那么就会计算 2 个均值和方差，分别对应每个特征维度。momentum 设置为 0.3，第一次的均值和方差默认为 0 和 1。输入两次 mini-batch 的数据。

Layer Normalization

提出的原因：Batch Normalization 不适用于变长的网络，如 RNN

思路：每个网络层计算均值和方差， $\gamma$ 和 $\beta$ 为逐样本的可学习参数。

torch.nn.LayerNorm(normalized_shape, eps=1e-05, elementwise_affine=True)

例如，输入数据的形状是 $\times C \times feature$ ，(8, 2, 3, 4)，表示一个 mini-batch 有 8 个样本，每个样本有 2 个特征，每个特征的维度是 3 x 4。那么就会计算 8 个均值和方差，分别对应每个样本。