1.从拉格朗日乘数法理解
m
i
n
J
(
W
,
b
,
x
)
s
.
t
∣
∣
W
∣
∣
1
−
C
≤
0
minJ(W,b,x)\\s.t||W||_1-C\le0
minJ(W,b,x)s.t∣∣W∣∣1−C≤0
L
(
W
,
λ
)
=
J
(
W
)
+
λ
(
∣
∣
W
∣
∣
1
−
C
)
m
i
n
W
max
λ
L
(
W
,
λ
)
s
.
t
.
λ
≥
0
\\L(W,\lambda)=J(W)+\lambda(||W||_1-C)\\ \mathop{min}\limits_W \max_\lambda L(W,\lambda)\\s.t.\lambda\ge0
L(W,λ)=J(W)+λ(∣∣W∣∣1−C)WminλmaxL(W,λ)s.t.λ≥0
L
1
(
W
,
λ
)
=
J
(
W
)
+
λ
(
∣
∣
W
∣
∣
2
−
C
)
=
J
(
W
)
+
λ
∣
∣
W
∣
∣
2
−
λ
C
\begin{aligned}L_1(W,\lambda)&=J(W)+\lambda(||W||_2-C)\\&=J(W)+\lambda||W||_2-\lambda C\end{aligned}
L1(W,λ)=J(W)+λ(∣∣W∣∣2−C)=J(W)+λ∣∣W∣∣2−λC
L
2
(
W
,
λ
)
=
L
1
(
W
,
λ
)
+
λ
C
=
J
(
W
)
+
λ
∣
∣
W
∣
∣
2
\begin{aligned}L_2(W,\lambda)&=L_1(W,\lambda)+\lambda C\\&=J(W)+\lambda||W||_2\end{aligned}
L2(W,λ)=L1(W,λ)+λC=J(W)+λ∣∣W∣∣2
a
r
g
W
(
min
W
max
λ
L
1
(
W
,
λ
)
s
.
t
.
λ
≥
0
)
=
a
r
g
W
(
min
W
max
λ
L
2
(
W
,
λ
)
s
.
t
.
λ
≥
0
)
这
两
个
问
题
等
价
,
因
为
L
1
和
L
2
对
W
求
导
等
于
0
的
极
值
点
相
同
L
2
没
有
C
半
径
可
以
任
意
大
小
。
λ
用
于
调
节
梯
度
通
过
图
可
以
可
看
出
L
1
稀
疏
\mathop{arg}_{W}(\min_W\max_\lambda L_1(W,\lambda)\\s.t.\lambda \ge0) \\=arg_W(\min_W\max_\lambda L_2(W,\lambda)\\s.t. \lambda\ge0)\\这两个问题等价,因为L1和L2对W求导等于0 的极值点相同 L_2没有C 半径可以任意大小。\\\lambda用于调节梯度\\通过图可以可看出L1稀疏
argW(WminλmaxL1(W,λ)s.t.λ≥0)=argW(WminλmaxL2(W,λ)s.t.λ≥0)这两个问题等价,因为L1和L2对W求导等于0的极值点相同L2没有C半径可以任意大小。λ用于调节梯度通过图可以可看出L1稀疏
2.权重衰减
损
失
函
数
:
J
(
W
,
b
)
权
重
更
新
:
W
=
W
−
η
⋅
▽
W
J
(
W
)
损失函数:J(W,b)\\权重更新:W=W-\eta \cdot\bigtriangledown_WJ(W)
损失函数:J(W,b)权重更新:W=W−η⋅▽WJ(W)
正
则
化
后
:
损
失
函
数
J
^
(
W
)
=
J
(
W
)
+
λ
∣
∣
W
∣
∣
2
=
J
(
W
)
+
α
2
W
T
W
权
重
更
新
:
W
=
W
−
η
⋅
▽
W
J
^
(
W
)
=
W
−
η
⋅
▽
w
J
(
W
)
−
η
⋅
α
W
(
最
后
一
项
没
有
带
三
角
w
,
已
经
求
过
导
了
)
=
(
1
−
η
⋅
α
)
W
−
η
⋅
▽
W
J
(
W
)
从
最
后
一
行
公
式
可
以
看
出
,
学
习
率
的
范
围
是
0
到
1
,
进
行
了
权
重
的
限
制
正则化后: \begin{aligned} \\损失函数\hat{J}(W)\\&=J(W)+\lambda||W||_2\\&=J(W)+\frac{\alpha}{2}W^TW\end{aligned} 权重更新:\\\begin{aligned}W&=W-\eta\cdot\bigtriangledown_W\hat{J}(W)\\&=W-\eta\cdot\triangledown_wJ(W)-\eta\cdot\alpha W(最后一项没有带三角w,已经求过导了)\\&=(1-\eta\cdot\alpha)W-\eta\cdot\triangledown_WJ(W)\end{aligned}\\从最后一行公式可以看出,学习率的范围是0到1,进行了权重的限制
正则化后:损失函数J^(W)=J(W)+λ∣∣W∣∣2=J(W)+2αWTW权重更新:W=W−η⋅▽WJ^(W)=W−η⋅▽wJ(W)−η⋅αW(最后一项没有带三角w,已经求过导了)=(1−η⋅α)W−η⋅▽WJ(W)从最后一行公式可以看出,学习率的范围是0到1,进行了权重的限制
3.从贝叶斯概率理解
似
然
是
似
然
函
数
的
简
称
最
大
似
然
值
是
θ
最
大
的
取
值
贝
叶
斯
公
式
:
P
(
θ
∣
X
)
=
P
(
X
∣
θ
)
P
(
X
)
⋅
P
(
θ
)
P
(
θ
)
是
先
验
概
率
P
(
θ
∣
X
)
是
后
验
概
率
L
x
(
θ
)
=
L
(
θ
∣
X
)
=
P
(
X
∣
θ
)
P
(
θ
∣
X
)
=
L
(
θ
∣
X
)
P
(
X
)
⋅
P
(
θ
)
f
x
(
θ
)
=
P
(
θ
∣
X
)
=
L
(
θ
∣
X
)
P
(
X
)
⋅
P
(
θ
)
f
x
(
θ
)
∝
P
(
X
∣
θ
)
⋅
P
(
θ
)
=
L
(
θ
∣
X
)
⋅
P
(
θ
)
最
大
似
然
估
计
(
M
L
E
)
认
定
:
θ
^
=
a
r
g
m
a
x
θ
L
(
θ
∣
X
)
最
大
后
验
估
计
(
M
A
P
)
认
定
:
θ
=
a
r
g
m
a
x
θ
(
L
(
θ
∣
X
)
⋅
P
(
θ
)
)
似然是似然函数的简称\\最大似然值是\theta最大的取值\\贝叶斯公式:P(\theta|X)=\frac{P(X|\theta)}{P(X)}\cdot P(\theta)\\ P(\theta)是先验概率\\ P(\theta|X)是后验概率\\L_x(\theta)=L(\theta|X)=P(X|\theta)\\P(\theta|X)=\frac{L(\theta|X)}{P(X)}\cdot P(\theta)\\f_x(\theta)=P(\theta|X)=\frac{L(\theta|X)}{P(X)} \cdot P(\theta)\\f_x(\theta)\propto P(X|\theta)\cdot P(\theta)=L(\theta|X)\cdot P(\theta)\\最大似然估计(MLE)\\认定:\hat{\theta}=argmax_\theta L(\theta|X)\\最大后验估计(MAP)\\认定:\theta = argmax_\theta(L(\theta|X)\cdot P(\theta))
似然是似然函数的简称最大似然值是θ最大的取值贝叶斯公式:P(θ∣X)=P(X)P(X∣θ)⋅P(θ)P(θ)是先验概率P(θ∣X)是后验概率Lx(θ)=L(θ∣X)=P(X∣θ)P(θ∣X)=P(X)L(θ∣X)⋅P(θ)fx(θ)=P(θ∣X)=P(X)L(θ∣X)⋅P(θ)fx(θ)∝P(X∣θ)⋅P(θ)=L(θ∣X)⋅P(θ)最大似然估计(MLE)认定:θ^=argmaxθL(θ∣X)最大后验估计(MAP)认定:θ=argmaxθ(L(θ∣X)⋅P(θ))
有时间继续补