优化算法对比-CFANZ编程社区

优化算法对比

f12b11374cba 2023-06-09 阅读 60

求解非线性最小二乘问题
$\min_{x} F(x) = \frac{1}{2}\left \| f(x)\right \|$

首先获得 $F(x_k+\Delta x_k)$ 的具体数值，方法是在 $x_k$ 的位置进行泰勒展开，二阶一般就足够近似了。
$F(x_k+\Delta x_k) \approx F(x_k) + J^T(x_k)\Delta x_k + \frac{1}{2}\Delta x_k^TH(x_k)\Delta x_k$

$J(x_k)$ 雅可比矩阵Jacobian(梯度、一阶导数)，表格中用 $J$ 表示。
$H(x_k)$ 海森矩阵hessian(二阶、导数)，表格中用 $H$ 表示。
$x_k$ 已知，，表格中用 $x$ 表示。
$\Delta x_k$ 带求量已知，表格中用 $\Delta x$ 表示。

优化算法	主要思路	更新公式	优势	缺点
最速下降法	梯度方向是上升方向，所以沿着负梯度方向 $- J$ 更新 $x$ ,可以使 $F (x)$ 逐步获得最小值。更新的步长为 $-\lambda$	$\Delta x=-\lambda J$	是下降算法	容易出现锯齿现象，增加迭代的次数
牛顿法	二阶泰勒展开的数值最小，一般是对 $\Delta x$ 求导导数为0的极值点	$J+H\Delta = 0$	是下降算法	需要计算H矩阵，计算量大
高斯牛顿法	使用 $f (x)$ 的雅可比矩阵 $J(x)J^T(x)$ 近似 $H$ 矩阵， $+\Delta x) = f(x) + J(x)^T \Delta x$	$J(x)J^T(x) \Delta x = - J(x)f(x) \Rightarrow H(x)\Delta x = g(x)$	避免了计算 $H$ 导致的计算量过大的问题	使用 $J(x)J^T(x)$ 近似的 $H (x)$ 半正定肯出现奇异病态；近似的 $H (x)$ 只在 $x$ 附近效果不错，可能出现求解得到的 $\Delta x$ 的步长过大，局部的近似不准确的问题。
LM优化算法	考虑到高斯牛顿法近似不准确，给定一个近似的信赖区间半径 $\mu$ ，并根据 $\rho = \frac{f(x + \Delta x)-f(x)}{J^T(x)\Delta x}$ 指标判断 $\mu$ 的好坏， $\rho$ 大于一定值可以增加 $\mu$ 半径，反之亦然。	$\lambda D^TD) \Delta x= g(x)$ ，相比于高斯牛顿法多了 $\lambda D^TD$ ，可以将$ D^TD$近似为单位矩阵 $I$ 进行简化	$\lambda$ 比较小时，近似于高斯牛顿法；	$\lambda$ 比较大的时候， $\lambda I$ 占主要地位，近似于最速度下降法

0 条评论