前向传播

在这里插入图片描述

反向传播

在这里插入图片描述

𝜕𝑙𝑜𝑠𝑠/𝜕𝑥𝐿 = 𝑔’(𝑥𝐿)
这个公式表示输出层对输入层的偏导数，它等于激活函数关于输入的导数，即𝑔’。
𝜕𝑙𝑜𝑠𝑠/𝜕𝑥𝐿−1 = 𝑊𝐿−1 · (𝜕𝑙𝑜𝑠𝑠/𝜕𝑥𝐿 ⊙ 𝑓’(𝑊𝐿−1𝑥𝐿−1))
这个公式表示倒数第L-1层对第L层的偏导数，它等于第L层权重矩阵𝑊𝐿−1乘以(𝜕𝑙𝑜𝑠𝑠/𝜕𝑥𝐿 ⊙ 𝑓’(𝑊𝐿−1𝑥𝐿−1))，其中𝑓’表示激活函数的导数。
𝜕𝑙𝑜𝑠𝑠/𝜕𝑤𝐿−1 = (𝜕𝑙𝑜𝑠𝑠/𝜕𝑥𝐿 ⊙ 𝑓’(𝑊𝐿−1𝑥𝐿−1)) · 𝑥𝐿−1
这个公式表示对第L-1层的权重𝑤𝐿−1求偏导数，它等于(𝜕𝑙𝑜𝑠𝑠/𝜕𝑥𝐿 ⊙ 𝑓’(𝑊𝐿−1𝑥𝐿−1))乘以第L-1层的输入𝑥𝐿−1。

这些公式描述了反向传播算法中的梯度计算过程，它们用于更新神经网络中的权重以最小化损失函数。

梯度下降

假设神经网络中只有两个参数 $w_1$ 和 $w_2$ 。在梯度下降算法中，我们通过计算损失函数 $C$ 关于参数的偏导数来确定梯度方向，并乘以学习率 $\eta$ 来确定参数更新的步幅。这样反复迭代更新参数，直到达到收敛或满足停止条件。

具体步骤如下：

随机选择一个起始点 $\theta_0$ 。
计算在 $\theta_0$ 处的负梯度 $-\nabla C(\theta_0)$ 。
将负梯度与学习率 $\eta$ 相乘。
更新参数：
$\theta_0 = \theta_0 - \eta \cdot \nabla C(\theta_0)$

其中， $\nabla C(\theta_0)$ 是损失函数关于参数的偏导数组成的梯度。在二维空间中，可以表示为 $\nabla C(\theta_0) = \left(\cfrac{\partial C(\theta_0)}{\partial w_1}, \cfrac{\partial C(\theta_0)}{\partial w_2}\right)$ 。