权重衰减(weight decay)(L2正则化)的作用
引自:CSDN博主「Microstrong0305」
1. 权重衰减(weight decay)
L2正则化的目的就是为了让权重衰减到更小的值,在一定程度上减少模型过拟合的问题,所以权重衰减也叫L2正则化。
1.1 L2正则化
L2正则化就是在代价函数后面再加上一个正则化项:
L
=
L
0
+
1
2
×
λ
×
1
n
∑
w
w
2
\mathcal{L}=\mathcal{L}_{0}+\frac{1}{2}\times{\lambda}\times\frac{1}{n} \sum_{w} w^{2}
L=L0+21×λ×n1w∑w2
2. 小结
optimizer_w = torch.optim.SGD(params=[net.weight], lr=lr, weight_decay=wd) # 对权重参数衰减
optimizer_b = torch.optim.SGD(params=[net.bias], lr=lr) # 不对偏差参数衰减