一、范数
p
范
数
p范数
p范数:
x
=
[
x
1
,
x
1
,
.
.
.
x
n
]
T
x = [x_1,x_1,...x_n]^T
x=[x1,x1,...xn]T
那么向量x的
p
范
数
p范数
p范数就是:
∣
∣
x
∣
∣
p
=
(
∣
x
1
∣
p
+
∣
x
2
∣
p
+
.
.
.
+
∣
x
n
∣
p
)
1
/
p
||x||_p = (|x_1|^p+|x_2|^p+...+|x_n|^p)^{1/p}
∣∣x∣∣p=(∣x1∣p+∣x2∣p+...+∣xn∣p)1/p
二、L1范数与L2范数
L
1
范
数
L1范数
L1范数:
∣
∣
x
∣
∣
1
=
(
∣
x
1
∣
+
∣
x
2
∣
+
.
.
.
+
∣
x
n
∣
)
||x||_1 = (|x_1|+|x_2|+...+|x_n|)
∣∣x∣∣1=(∣x1∣+∣x2∣+...+∣xn∣)
L
1
范
数
L1范数
L1范数是向量中,各个元素绝对值之和,作用:让参数矩阵W稀疏化,可以做特征选择。
L
2
范
数
L2范数
L2范数:
∣
∣
x
∣
∣
2
=
(
∣
x
1
∣
2
+
∣
x
2
∣
2
+
.
.
.
+
∣
x
n
∣
2
)
1
/
2
||x||_2 = (|x_1|^2+|x_2|^2+...+|x_n|^2)^{1/2}
∣∣x∣∣2=(∣x1∣2+∣x2∣2+...+∣xn∣2)1/2
L
2
范
数
L2范数
L2范数是向量中,各个元素的平方和,然后求平方根,作用,让参数W的各个值都很小,防止过拟合,提高模型的泛化能力。
可以看到L1趋向于选择少量的特征,其他特征的权重为0,而,L2趋向于选择更多的特征,但是每个特征的权重都很小。
三、监督学习中的正则化
L1、L2在监督学习中,叫正则化,英文是regularization,单词的意思是规则化,即添加一些规则,限制模型的参数,让模型的参数不会太大。
minimize your error while regularizing your parameters,即在规则化参数的同时,最小化误差。当然,最小化误差是为了让我们的模型拟合我们的训练数据,而规则化参数是防止我们的模型过分拟合。
正则化就是让我们的模型尽可能简单的解决我们的问题。
L1范数会使权值稀疏
L1范数会使权值衰减weight decay,防止过拟合