手推公式之“层归一化(LayerNorm)”梯度
昨天推导了一下交叉熵的反向传播梯度,今天再来推导一下层归一化(LayerNorm),这是一种常见的归一化方法。
前向传播

反向传播

推导过程


均值和标准差的梯度

这次内容较少就是一些图哦~~
LayerNorm
阅读 46
2024-08-08
手推公式之“层归一化(LayerNorm)”梯度
昨天推导了一下交叉熵的反向传播梯度,今天再来推导一下层归一化(LayerNorm),这是一种常见的归一化方法。

反向传播

推导过程


均值和标准差的梯度

这次内容较少就是一些图哦~~
相关推荐
精彩评论(0)