解决过拟合的方法
参考>>12 权重衰退【动手学深度学习v2】
L 2 L_2 L2正则化
权重衰减(weight decay)是最广泛使用的正则化的技术之一, 它通常也被称为
L
2
L_2
L2正则化。
简单来说就是在loss函数中加入一个权重的2-范数约束,这样能够保证权重向量比较小(W较小说明模型简单),更不容易过拟合。
L
(
w
,
b
)
+
λ
2
∥
w
∥
2
L(\mathbf{w}, b) + \frac{\lambda}{2} \|\mathbf{w}\|^2
L(w,b)+2λ∥w∥2
其中
L
(
w
,
b
)
=
1
n
∑
i
=
1
n
1
2
(
w
⊤
x
(
i
)
+
b
−
y
(
i
)
)
2
L(\mathbf{w}, b) = \frac{1}{n}\sum_{i=1}^n \frac{1}{2}\left(\mathbf{w}^\top \mathbf{x}^{(i)} + b - y^{(i)}\right)^2
L(w,b)=n1i=1∑n21(w⊤x(i)+b−y(i))2
权重更新的表达式为:
w
←
(
1
−
η
λ
)
w
−
η
∣
B
∣
∑
i
∈
B
x
(
i
)
(
w
⊤
x
(
i
)
+
b
−
y
(
i
)
)
\mathbf{w} \leftarrow \left(1- \eta\lambda \right) \mathbf{w} - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \mathbf{x}^{(i)} \left(\mathbf{w}^\top \mathbf{x}^{(i)} + b - y^{(i)}\right)
w←(1−ηλ)w−∣B∣ηi∈B∑x(i)(w⊤x(i)+b−y(i))
1 − η λ 1-\eta\lambda 1−ηλ的系数使得权重衰减