0
点赞
收藏
分享

微信扫一扫

深度学习——解决过拟合问题

解决过拟合的方法

参考>>12 权重衰退【动手学深度学习v2】

L 2 L_2 L2正则化

权重衰减(weight decay)是最广泛使用的正则化的技术之一, 它通常也被称为 L 2 L_2 L2正则化。
简单来说就是在loss函数中加入一个权重的2-范数约束,这样能够保证权重向量比较小(W较小说明模型简单),更不容易过拟合。
L ( w , b ) + λ 2 ∥ w ∥ 2 L(\mathbf{w}, b) + \frac{\lambda}{2} \|\mathbf{w}\|^2 L(w,b)+2λw2
其中
L ( w , b ) = 1 n ∑ i = 1 n 1 2 ( w ⊤ x ( i ) + b − y ( i ) ) 2 L(\mathbf{w}, b) = \frac{1}{n}\sum_{i=1}^n \frac{1}{2}\left(\mathbf{w}^\top \mathbf{x}^{(i)} + b - y^{(i)}\right)^2 L(w,b)=n1i=1n21(wx(i)+by(i))2
权重更新的表达式为:
w ← ( 1 − η λ ) w − η ∣ B ∣ ∑ i ∈ B x ( i ) ( w ⊤ x ( i ) + b − y ( i ) ) \mathbf{w} \leftarrow \left(1- \eta\lambda \right) \mathbf{w} - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \mathbf{x}^{(i)} \left(\mathbf{w}^\top \mathbf{x}^{(i)} + b - y^{(i)}\right) w(1ηλ)wBηiBx(i)(wx(i)+by(i))

1 − η λ 1-\eta\lambda 1ηλ的系数使得权重衰减

dropout

举报

相关推荐

0 条评论