归一化的核心思想是把一组数据转化为均值为 0,方差为 1 的数据,使得训练数 据在训练过程中尽可能的保持和测试数据拥有相同的分布。 一方面,这样可以减少 数据的偏差,避免在训练过程中出现梯度爆炸或是梯度消失的问题; 另一方面,这也是确保模型测试性能的重要假设之一。