0
点赞
收藏
分享

微信扫一扫

L1范数与L2范数

一、范数

p 范 数 p范数 p
x = [ x 1 , x 1 , . . . x n ] T x = [x_1,x_1,...x_n]^T x=[x1,x1,...xn]T
那么向量x的 p 范 数 p范数 p就是:
∣ ∣ x ∣ ∣ p = ( ∣ x 1 ∣ p + ∣ x 2 ∣ p + . . . + ∣ x n ∣ p ) 1 / p ||x||_p = (|x_1|^p+|x_2|^p+...+|x_n|^p)^{1/p} xp=(x1p+x2p+...+xnp)1/p

二、L1范数与L2范数

L 1 范 数 L1范数 L1
∣ ∣ x ∣ ∣ 1 = ( ∣ x 1 ∣ + ∣ x 2 ∣ + . . . + ∣ x n ∣ ) ||x||_1 = (|x_1|+|x_2|+...+|x_n|) x1=(x1+x2+...+xn)
L 1 范 数 L1范数 L1是向量中,各个元素绝对值之和,作用:让参数矩阵W稀疏化,可以做特征选择。
L 2 范 数 L2范数 L2
∣ ∣ x ∣ ∣ 2 = ( ∣ x 1 ∣ 2 + ∣ x 2 ∣ 2 + . . . + ∣ x n ∣ 2 ) 1 / 2 ||x||_2 = (|x_1|^2+|x_2|^2+...+|x_n|^2)^{1/2} x2=(x12+x22+...+xn2)1/2
L 2 范 数 L2范数 L2是向量中,各个元素的平方和,然后求平方根,作用,让参数W的各个值都很小,防止过拟合,提高模型的泛化能力。

可以看到L1趋向于选择少量的特征,其他特征的权重为0,而,L2趋向于选择更多的特征,但是每个特征的权重都很小。

三、监督学习中的正则化

L1、L2在监督学习中,叫正则化,英文是regularization,单词的意思是规则化,即添加一些规则,限制模型的参数,让模型的参数不会太大。

minimize your error while regularizing your parameters,即在规则化参数的同时,最小化误差。当然,最小化误差是为了让我们的模型拟合我们的训练数据,而规则化参数是防止我们的模型过分拟合。

正则化就是让我们的模型尽可能简单的解决我们的问题。

L1范数会使权值稀疏
L1范数会使权值衰减weight decay,防止过拟合

举报

相关推荐

0 条评论