2022年平均工资揭晓！2022年IT行业平均工资超高！最赚钱的行业是......IT! 看看最赚钱的职位是什么？-CFANZ编程社区

正则化在深度学习的出现前就已经被使用了数十年。线性模型，如线性回归和逻辑回归可以使用简单、直接、有效的正则化策略。许多正则化方法通过对目标函数 $J$ 添加一个参数范数惩罚 $\Omega(\theta)$ 限制模型的学习能力。我们将正则化后的目标函数记为：
$\tilde{J}(\theta;X, y) = J(\theta;X, y) + \alpha\Omega(\theta)$

其中 $\alpha\in[0, +\infty]$ 是权衡范数惩罚项 $\Omega$ 和标准目标函数 $J(\theta;X, y)$ 相对贡献的超参数。将 $\alpha$ 设为 $0$ 表示没有正则化。 $\alpha$ 越大，对应正则化惩罚越大。当我们的训练算法最小化正则化后的目标函数 $\tilde{J}$ 时，它会降低原始目标 $J$ 关于训练数据的误差并同时减小在某些衡量标准下参数 $\theta$ （或参数子集）的规模。选择不同的参数范数 $\Omega$ 会偏好不同的解。在探究不同范数的正则化表现之前，我们需要说明一下，在神经网络中，参数包括每一层仿射变换的权重和偏置，我们通常只对权重做惩罚而不对偏置做正则惩罚。精确拟合偏置所需的数据通常比拟合权重少得多。每个权重会指定两个变量如何相互作用。我们需要在各种条件下观察这两个变量才能良好地拟合权重。而每个偏置仅控制一个单变量。这意味着，我们不对其进行正则化也不会导致太大的方差。另外，正则化偏置参数可能会导致明显的欠拟合。因此，我们使用向量 $w$ 表示所有应受范数惩罚影响的权重，而向量 $\theta$ 表示所有参数 (包括 $w$ 和无需正则化的参数)。在神经网络的情况下，有时希望对网络的每一层使用单独的惩罚，并分配不同的 $\alpha$ 系数。寻找合适的多个超参数的代价很大，因此为了减少搜索空间，我们会在所有层使用相同的权重衰减。

$L^1$ 正则化

对模型参数 $w$ 的 $L^1$ 正则化被定义为：
$\Omega(\theta) = ||w||_1 = \sum_i|w_i|$

因此， $L^1$ 正则化的目标函数 $\tilde{J}(w;X, y)$ 为：
$\tilde{J}(w;X, y) = J(w;X, y) + \frac{\alpha}{2}w^Tw$

对应的梯度：
$\nabla_w\tilde{J}(w;X, y) = \nabla_wJ(w;X, y) + \alpha\text{sign}(w)$

其中 $\text{sign}(w)$ 只是简单地取 $w$ 各个元素的正负号。具体来说，我们可以看到正则化对梯度的影响不再是线性地缩放每个 $w_i$ ，而是添加了一项与 $\text{sign}(w)$ 同号的常数。使用这种形式的梯度之后，我们不一定能得到 $J (w; X, y)$ 二次近似的直接解析解。简单线性模型具有二次代价函数，我们可以通过泰勒级数表示。或者我们可以设想，这是逼近更复杂模型的代价函数的截断泰勒级数。在这个设定下，梯度为：
$\nabla_w\tilde{J}(w;X, y) = H(w - w^*)$

其中， $H$ 是 $J$ 在 $w^∗$ 处关于 $w$ 的Hessian矩阵。由于 $L^1$ 惩罚项在完全一般化的Hessian的情况下，无法得到直接清晰的代数表达式，因此我们将进一步简化假设Hessian是对角的，即 $\text{diag}([H_{1,1}, \cdots, H_{n,n}])$ ，其中每个 $H_{i,i} > 0$ 。如果线性回归问题中的数据已被预处理（如可以使用 PCA），去除了输入特征之间的相关性，那么这一假设成立。

我们可以将 $L^1$ 正则化目标函数的二次近似分解成关于参数的求和：
$\hat{J}(w;X, y) = J(w^*;X, y) + \sum_i[\frac{1}{2}H_{i,i}(w - w^*)^2+\alpha|w_i|]$

如下列形式的解析解（对每一维 $i$ ）可以最小化这个近似代价函数：
$w_i = \text{sign}(w_i^*)\max\{|w^*_i - \frac{\alpha}{H_{i, i}}, 0|\}$

对每个 $i$ ，考虑 $w^∗_i > 0$ 的情形，会有两种可能结果：

$w^∗_i \leq\frac{\alpha}{H_{i, i}}$ ：正则化后目标中的 $w_i$ 最优值是 $w_i=0$ 。这是因为在方向 $i$ 上 $J (w; X, y)$ 对 $\hat{J}(w; X, y)$ 的贡献被抵消， $L^1$ 正则化项将 $w_i$ 推至0。
$w^∗_i >\frac{\alpha}{H_{i, i}}$ ：在这种情况下，正则化不会将 $w_i$ 的最优值推至0，而仅仅在那个方向上移动 $\frac{\alpha}{H_{i, i}}$ 的距离。

$w^∗_i < 0$ 的情况与之类似，但是 $L^1$ 惩罚项使 $w_i$ 更接近0（增加 $\frac{\alpha}{H_{i, i}}$ ）或者为0。相比 $L^2$ 正则化， $L^1$ 正则化会产生更稀疏（Sparse）的解。此处稀疏性指的是最优值中的一些参数为0。和 $L^2$ 正则化相比， $L^1$ 正则化的稀疏性具有本质的不同。

由 $L^1$ 正则化导出的稀疏性质已经被广泛地用于特征选择（Feature Selection）机制。特征选择从可用的特征子集选择出有意义的特征，化简机器学习问题。著名的LASSO （Least Absolute Shrinkage and Selection Operator）模型将 $L^1$ 惩罚和线性模型结合，并使用最小二乘代价函数。 $L^1$ 惩罚使部分子集的权重为零，表明相应的特征可以被安全地忽略。

$L^2$ 正则化

$L^2$ 正则化策略通过向
目标函数添加一个正则项：
$\Omega(\theta) = \frac{1}{2}||w||^2$

，使权重更加接近原点。同时， $L^2$ 也被称为岭回归（Ridge Regression）或Tikhonov正则（Tikhonov Regularization）。我们可以通过研究正则化后目标函数的梯度，洞察一些权重衰减的正则化表现。

为了简单起见，我们假定其中没有偏置参数，因此 $\theta$ 就是 $∣∣ w ∣∣$ 。这样一个模型具有以下总的目标函数：
$\tilde{J}(w;X, y) = J(w;X, y) + \frac{\alpha}{2}w^Tw$

与之对应的梯度为：
$\nabla_w\tilde{J}(w;X, y) = \nabla_wJ(w;X, y) + \alpha w$

使用单步梯度下降更新权重，即执行以下更新：
$\epsilon(\nabla_wJ(w;X, y) + \alpha w) = (1 - \epsilon\alpha)w - \epsilon(\nabla_wJ(w;X, y)$

我们可以看到，加入权重衰减后会引起学习规则的修改，即在每步执行通常的梯度更新之前先收缩权重向量（将权重向量乘以一个常数因子）。这是单个步骤发生的变化。我们进一步简化分析，令 $w^∗$ 为未正则化的目标函数取得最小训练误差时的权重向量，即 $w^∗ = \arg\min_wJ(w)$ ，并在 $w^∗$ 的邻域对目标函数做二次近似。如果目标函数确实是二次的（如以均方误差拟合线性回归模型的情况），则该近似是完美的。近似的 $\hat{J}(\theta)$ 如下：
$\hat{J}(\theta) = J(w^*) + \frac{1}{2}(w - w^*) + H(w - w^*)$

其中， $H$ 是 $J$ 在 $w^∗$ 处计算的Hessian矩阵（关于 $w$ ）。因为 $w^∗$ 被定义为最优，即梯度消失为0，所以该二次近似中没有一阶项。同样地，因为 $w^∗$ 是 $J$ 的一个最优点，我们可以得出 $H$ 是半正定的结论。当 $\hat{J}$ 取得最小时，其梯度：
$\nabla_wJ(w) = H(w - w^*)$

为 0。为了研究权重衰减带来的影响，我们在上式中添加权重衰减的梯度。现在我们探讨最小化正则化后的 $\hat{J}$ 。我们使用变量 $\tilde{w}$ 表示此时的最优点：
$\begin{align*} \alpha\tilde{w} + H(w-w^*) = 0 \\ (H + \alpha I)\tilde{w} = Hw^* \\ \tilde{w} = (H + \alpha I)^{-1}Hw^* \end{align*}$
当 $\alpha$ 趋向于 $0$ 时，正则化的解 $\tilde{w}$ 会趋向 $w^∗$ 。那么当 $\alpha$ 增加时，因为 $H$ 是实对称的，所以我们可以将其分解为一个对角矩阵 $\Lambda$ 和一组特征向量的标准正交基 $Q$ ，并且有 $Q\Lambda Q^T$ ，可得： $\tilde{w} = Q(\Lambda + \alpha I)^{-1}\Lambda Q^Tw^*$ 。我们可以看到权重衰减的效果是沿着由 $H$ 的特征向量所定义的轴缩放 $w^∗$ 。具体来说，我们会根据 $\frac{\lambda_i}{\lambda_i+\alpha}$ 因子缩放与 $H$ 第 $i$ 个特征向量对齐的 $w^∗$ 的分量。沿着 $H$ 特征值较大的方向（如 $\lambda_i\gg a$ ）正则化的影响较小。而 $\lambda_i\ll a$ 的分量将会收缩到几乎为零。
L2正则化对最佳 w 值的影响
只有在显著减小目标函数方向上的参数会保留得相对完好。在无助于目标函数减小的方向（对应 Hessian 矩阵较小的特征值）上改变参数不会显著增加梯度。这种不重要方向对应的分量会在训练过程中因正则化而衰减掉。

目前为止，我们讨论了权重衰减对优化一个抽象通用的二次代价函数的影响。我们可以研究线性回归，它的真实代价函数是二次的，因此我们可以使用相同的方法分析。再次应用分析，我们会在这种情况下得到相同的结果，但这次我们使用训练数据的术语表述。线性回归的代价函数是平方误差之和： $\text{Loss}=(Xw-y)^T(Xw-y)$ ，我们添加 $L^2$ 正则项后，目标函数变为： $\text{Loss}=(Xw-y)^T(Xw-y)+\frac{1}{2}\alpha w^Tw$ ，这将普通方程的解从 $w=(X^TX)^{-1}X^Ty$ 变为 $w=(X^TX+\alpha I)^{-1}X^Ty$ 。式中的矩阵 $X^TX$ 与协方差矩阵 $\frac{1}{m}X^TX$ 成正比。 $L^2$ 正则项将这个矩阵替换为 $(X^TX+\alpha I)^{-1}$ 。这个新矩阵与原来的是一样的，不同的仅仅是在对角加了 $\alpha$ 。这个矩阵的对角项对应每个输入特征的方差。我们可以看到， $L^2$ 正则化能让学习算法感知到具有较高方差的输入 $x$ ，因此与输出目标的协方差较小（相对增加方差）的特征的权重将会收缩。

如果我们使用Hessian矩阵 $H$ 为对角正定矩阵的假设（与 $L^1$ 正则化分析时一样），重新考虑这个等式，我们发现 $\tilde{w_i}=\frac{H_{i, i}}{H_{i, i} + \alpha}w_i^*$ 。如果 $w_i^*$ 不是零，那么 $\tilde{w_i}$ 也会保持非零。这表明 $L^2$ 正则化不会使参数变得稀疏，而 $L^1$ 正则化有可能通过足够大的 $\alpha$ 实现稀疏。