深度学习优化器个人经验汇总-CFANZ编程社区

深度学习优化器个人经验汇总

参考：https://zhuanlan.zhihu.com/p/32230623
仅用作个人记录

$g_t = \triangledown f(w_t) \qquad \tiny{根据loss计算出的梯度值} \\ \normalsize{m_t = \phi (g_1, g_2, ..., g_t)} \qquad \tiny{根据过去梯度惯性和当前梯度算出的一阶动量} \\ \normalsize{V_t = \varphi (g_1, g_2, ..., g_t)} \qquad \tiny{根据过去梯度和当前梯度算出的二阶动量} \\ \normalsize{\eta_t = \frac{\alpha}{\sqrt{V_t}}*m_t} \qquad \tiny{根据一阶和二阶动量以及学习率\alpha计算需要更新的梯度} \\ \normalsize{w_{t+1} = w_t - \eta_t} \qquad \tiny{更新梯度}$

$m_t = g_t, \quad V_t=1, \quad \eta_t = \alpha * g_t, \quad w_{t+1} = w_t - \eta_t$

缺点：没有考虑以往梯度的惯性，梯度下降速度慢。且容易陷入局部最优解

$m_t = \beta_1*m_{t-1} + (1-\beta_1)*g_t, \; \beta_1=0.9$

特性：可以看到当前迭代的梯度下降绝大部分依托于以往的梯度惯性，额外考虑了些当前的梯度方向。
缺点：因额外增加了以往的惯性，容易导致梯度下降过猛导致震荡

$g_t = \triangledown f(w_t - \frac{\alpha}{\sqrt{V_t}}*m_{t-1})$

$V_t=\sum_{\tau=1}^{t} g_{\tau}^2, \quad \eta_t=\frac{\alpha}{V_t}*m_t$
$V_t$ 对于经常更新的 $g_t$ 会更大，因此学习率会自动减小。然而由于 $V_t$ 是单调递增函数，因此有可能使得学习率迅速下降接近于0，过早结束训练。

$V_t = \beta_2 * V_{t-1} + (1-\beta_2) * V_t, \quad \beta_2=0.999$

$m_t = \beta_1*m_{t-1} + (1-\beta_1)*g_t, \; \beta_1=0.9 \\ V_t = \beta_2 * V_{t-1} + (1-\beta_2) * V_t, \quad \beta_2=0.999, \\ w_{t+1} = w_t - \frac{\alpha}{\sqrt{V_t}}*m_t$
初始化:
$m_0 = 0, V_0 = 0$
然而，按照上述计算公式，训练初期梯度都接近于0，不利于训练，所以需要对梯度进行修正：
$\widetilde{m_t} = \frac{m_t}{1-\beta_1^t}, \\ \widetilde{V_t} = \frac{V_t}{1-\beta_2^t}$

0 条评论