0
点赞
收藏
分享

微信扫一扫

L1和L2正则化理解

1.从拉格朗日乘数法理解
m i n J ( W , b , x ) s . t ∣ ∣ W ∣ ∣ 1 − C ≤ 0 minJ(W,b,x)\\s.t||W||_1-C\le0 minJ(W,b,x)s.tW1C0 L ( W , λ ) = J ( W ) + λ ( ∣ ∣ W ∣ ∣ 1 − C ) m i n W max ⁡ λ L ( W , λ ) s . t . λ ≥ 0 \\L(W,\lambda)=J(W)+\lambda(||W||_1-C)\\ \mathop{min}\limits_W \max_\lambda L(W,\lambda)\\s.t.\lambda\ge0 L(W,λ)=J(W)+λ(W1C)WminλmaxL(W,λ)s.t.λ0
L 1 ( W , λ ) = J ( W ) + λ ( ∣ ∣ W ∣ ∣ 2 − C ) = J ( W ) + λ ∣ ∣ W ∣ ∣ 2 − λ C \begin{aligned}L_1(W,\lambda)&=J(W)+\lambda(||W||_2-C)\\&=J(W)+\lambda||W||_2-\lambda C\end{aligned} L1(W,λ)=J(W)+λ(W2C)=J(W)+λW2λC
L 2 ( W , λ ) = L 1 ( W , λ ) + λ C = J ( W ) + λ ∣ ∣ W ∣ ∣ 2 \begin{aligned}L_2(W,\lambda)&=L_1(W,\lambda)+\lambda C\\&=J(W)+\lambda||W||_2\end{aligned} L2(W,λ)=L1(W,λ)+λC=J(W)+λW2
a r g W ( min ⁡ W max ⁡ λ L 1 ( W , λ ) s . t . λ ≥ 0 ) = a r g W ( min ⁡ W max ⁡ λ L 2 ( W , λ ) s . t . λ ≥ 0 ) 这 两 个 问 题 等 价 , 因 为 L 1 和 L 2 对 W 求 导 等 于 0 的 极 值 点 相 同 L 2 没 有 C 半 径 可 以 任 意 大 小 。 λ 用 于 调 节 梯 度 通 过 图 可 以 可 看 出 L 1 稀 疏 \mathop{arg}_{W}(\min_W\max_\lambda L_1(W,\lambda)\\s.t.\lambda \ge0) \\=arg_W(\min_W\max_\lambda L_2(W,\lambda)\\s.t. \lambda\ge0)\\这两个问题等价,因为L1和L2对W求导等于0 的极值点相同 L_2没有C 半径可以任意大小。\\\lambda用于调节梯度\\通过图可以可看出L1稀疏 argW(WminλmaxL1(Wλ)s.t.λ0)=argW(WminλmaxL2(W,λ)s.t.λ0)L1L2W0L2CλL1
2.权重衰减
损 失 函 数 : J ( W , b ) 权 重 更 新 : W = W − η ⋅ ▽ W J ( W ) 损失函数:J(W,b)\\权重更新:W=W-\eta \cdot\bigtriangledown_WJ(W) J(W,b):W=WηWJ(W)
正 则 化 后 : 损 失 函 数 J ^ ( W ) = J ( W ) + λ ∣ ∣ W ∣ ∣ 2 = J ( W ) + α 2 W T W 权 重 更 新 : W = W − η ⋅ ▽ W J ^ ( W ) = W − η ⋅ ▽ w J ( W ) − η ⋅ α W ( 最 后 一 项 没 有 带 三 角 w , 已 经 求 过 导 了 ) = ( 1 − η ⋅ α ) W − η ⋅ ▽ W J ( W ) 从 最 后 一 行 公 式 可 以 看 出 , 学 习 率 的 范 围 是 0 到 1 , 进 行 了 权 重 的 限 制 正则化后: \begin{aligned} \\损失函数\hat{J}(W)\\&=J(W)+\lambda||W||_2\\&=J(W)+\frac{\alpha}{2}W^TW\end{aligned} 权重更新:\\\begin{aligned}W&=W-\eta\cdot\bigtriangledown_W\hat{J}(W)\\&=W-\eta\cdot\triangledown_wJ(W)-\eta\cdot\alpha W(最后一项没有带三角w,已经求过导了)\\&=(1-\eta\cdot\alpha)W-\eta\cdot\triangledown_WJ(W)\end{aligned}\\从最后一行公式可以看出,学习率的范围是0到1,进行了权重的限制 J^(W)=J(W)+λW2=J(W)+2αWTWW=WηWJ^(W)=WηwJ(W)ηαW(w=(1ηα)WηWJ(W)01
3.从贝叶斯概率理解
似 然 是 似 然 函 数 的 简 称 最 大 似 然 值 是 θ 最 大 的 取 值 贝 叶 斯 公 式 : P ( θ ∣ X ) = P ( X ∣ θ ) P ( X ) ⋅ P ( θ ) P ( θ ) 是 先 验 概 率 P ( θ ∣ X ) 是 后 验 概 率 L x ( θ ) = L ( θ ∣ X ) = P ( X ∣ θ ) P ( θ ∣ X ) = L ( θ ∣ X ) P ( X ) ⋅ P ( θ ) f x ( θ ) = P ( θ ∣ X ) = L ( θ ∣ X ) P ( X ) ⋅ P ( θ ) f x ( θ ) ∝ P ( X ∣ θ ) ⋅ P ( θ ) = L ( θ ∣ X ) ⋅ P ( θ ) 最 大 似 然 估 计 ( M L E ) 认 定 : θ ^ = a r g m a x θ L ( θ ∣ X ) 最 大 后 验 估 计 ( M A P ) 认 定 : θ = a r g m a x θ ( L ( θ ∣ X ) ⋅ P ( θ ) ) 似然是似然函数的简称\\最大似然值是\theta最大的取值\\贝叶斯公式:P(\theta|X)=\frac{P(X|\theta)}{P(X)}\cdot P(\theta)\\ P(\theta)是先验概率\\ P(\theta|X)是后验概率\\L_x(\theta)=L(\theta|X)=P(X|\theta)\\P(\theta|X)=\frac{L(\theta|X)}{P(X)}\cdot P(\theta)\\f_x(\theta)=P(\theta|X)=\frac{L(\theta|X)}{P(X)} \cdot P(\theta)\\f_x(\theta)\propto P(X|\theta)\cdot P(\theta)=L(\theta|X)\cdot P(\theta)\\最大似然估计(MLE)\\认定:\hat{\theta}=argmax_\theta L(\theta|X)\\最大后验估计(MAP)\\认定:\theta = argmax_\theta(L(\theta|X)\cdot P(\theta)) θP(θX)=P(X)P(Xθ)P(θ)P(θ)P(θX)Lx(θ)=L(θX)=P(Xθ)P(θX)=P(X)L(θX)P(θ)fx(θ)=P(θX)=P(X)L(θX)P(θ)fx(θ)P(Xθ)P(θ)=L(θX)P(θ)MLEθ^=argmaxθL(θX)(MAP)θ=argmaxθ(L(θX)P(θ))
有时间继续补

举报

相关推荐

0 条评论