手推公式之“层归一化(LayerNorm)”梯度
昨天推导了一下交叉熵的反向传播梯度,今天再来推导一下层归一化(LayerNorm),这是一种常见的归一化方法。
前向传播
反向传播
推导过程
均值和标准差的梯度
这次内容较少就是一些图哦~~
LayerNorm
阅读 39
2024-08-08
手推公式之“层归一化(LayerNorm)”梯度
昨天推导了一下交叉熵的反向传播梯度,今天再来推导一下层归一化(LayerNorm),这是一种常见的归一化方法。
反向传播
推导过程
均值和标准差的梯度
这次内容较少就是一些图哦~~
相关推荐
精彩评论(0)