51-36 DiT，视频生成模型Sora背后的核心技术-CFANZ编程社区

51-36 DiT，视频生成模型Sora背后的核心技术

看到订阅的激励还在继续，今天写下残差网络

1、梯度爆炸和梯度消失

梯度爆炸和梯度消失是两种常见的问题，由神经网络的结构和参数初始化方式引起。它们都与深度神经网络中的反向传播过程相关。

梯度爆炸：这是指在反向传播期间，梯度逐渐增大并最终超出了有效范围。这通常发生在深度神经网络中，因为梯度在每一层的权重更新中相乘。如果初始梯度较大，多次相乘会导致梯度值呈指数增长，最终导致梯度爆炸。这会使权重值变得非常大，使网络不稳定，难以训练。

举个例子：5 *5 *5在多次乘积之后数据指数级增长，在训练的时候参数调整很难快速到位。

梯度消失：这是指在反向传播期间，梯度逐渐减小并最终变得非常小，接近零。这通常发生在深度神经网络中，因为梯度在每一层的权重更新中相乘。如果初始梯度较小，多次相乘会导致梯度值逐渐趋近于零。这导致底层的权重几乎不更新，这些层几乎没有学习到有用的信息，从而限制了网络的深度。

举个例子：0.1 *0.1 *0.1 在多次乘积之后就非常小，在计算机中小数的表示是不精确的，相当于无限趋近于0

ResNet引入了残差连接，允许信息在不同层之间直接跳跃传递。

这样，网络可以学习将输入映射到残差（差异），而不是直接映射到目标输出。这种残差学习的方式使得在训练过程中更容易传递梯度，因为网络可以轻松地学习将输入信息添加到输出中，而不需要学习复杂的非线性变换。

在一般的卷积神经网络中，网络的输出是输入数据的映射，即y=F(x)，也就是输入数据进行卷积和激活函数后的输出，如下图。

0 条评论