模型评估与训练方法总结
1. 分类模型评估准则
1.1 错误率和精度
错误率:分类错误的样本数占样本总数的比例;
精度:分类正确的样本数占样本总数的比例。
其中,对于数据分布 D D D和概率密度 p ( ⋅ ) p(\cdot) p(⋅),错误率和精度可以以期望的形式描述
1.2 查准率与查全率
查准率(准确率)(precision):
在判别西瓜好坏的问题中,其代表“挑出的西瓜中有多少比例是好瓜”
在信息检索中,其代表“用户感兴趣的信息有多少被检索出来了”
查全率(召回率)(recall):
在判别西瓜好坏的问题中,其代表“所有好瓜中有多少比例被挑了出来”
在信息检索中,其代表“用户感兴趣的信息中有多少被检索出来了”
查准率与查全率是基于混淆矩阵定义的
其中,查准率 P = T P T P + F P P=\cfrac{TP}{TP+FP} P=TP+FPTP,查全率 R = T P T P + F N R=\cfrac{TP}{TP+FN} R=TP+FNTP
查准率和查全率通常是矛盾的。
在分类问题中,我们可以通过回归模型拟合样本属于某一类别的概率。通常,我们讲概率大于0.5的视为正例,概率小于0.5的视为负例。
但是,该阈值是可以调整的。如果我们调高阈值(比如提高到0.8),也就调高了查准率,因为我们只把更有把握判断准确的样本视为证例。但是,部分可能性相对较低(介于0.5~0.8之间)的正例样本,将被视为负例,这会降低查全率。
类似的,如果我们调低阈值,查准率会降低,查全率会提高。
1.3 F 1 F_1 F1与 F β F_\beta Fβ
为了整合查准率P和查全率R两个指标,并用数学关系将其描述,我们定义一个新指标 F 1 F_1 F1,为P和R的调和平均数。 F β F_\beta Fβ为P和R的加权调和平均数,是 F 1 F_1 F1的推广;同时, F 1 F_1 F1是 F β F_\beta Fβ的特殊形式。
他们的定义如下:
1 F 1 = 1 2 ⋅ ( 1 P + 1 R ) \cfrac{1}{F_1}=\cfrac{1}{2}\cdot(\cfrac{1}{P}+\cfrac{1}{R}) F11=21⋅(P1+R1)
1 F β = 1 1 + β 2 ⋅ ( 1 P + β 2 R ) \cfrac{1}{F_\beta}=\cfrac{1}{1+\beta^2}\cdot(\cfrac{1}{P}+\cfrac{\beta^2}{R}) Fβ1=1+β21⋅(P1+Rβ2)
其中, F 1 = 2 ⋅ P ⋅ R 样 本 总 数 + T P − T N F_1=\cfrac{2\cdot P\cdot R}{样本总数+TP-TN} F1=样本总数+TP−TN2⋅P⋅R
1.4 ROC与AUC
ROC基于阈值,统计正例样本的数目,并做归一化
AUC(area under ROC curve)计算ROC曲线下的面积,并作为衡量模型泛化能力的一项指标。
2. 回归模型评估准则
2.1 误差
对于一个回归模型,评判它性能的最好方式就是看的泛化误差。
最常见的误差的定义就是均方误差
m
s
e
=
∑
i
=
0
n
(
y
^
−
y
)
2
mse=\displaystyle\sum_{i=0}^{n}{(\hat{y}-y)^2}
mse=i=0∑n(y^−y)2
同时,为了达成使模型的泛化误差尽可能的小的目标,我们会选择使模型在训练集上的误差也尽可能小的策略来优化模型。其中,以mse作为优化目标训练模型的算法叫做最小二乘(least squares)
2.2 模型复杂度
光把“减少模型在训练集上的误差”作为训练模型的策略是不够的。第一是因为,在实际应用中,样本并不符合特征间相互独立的假设;第二是因为,训练集上的误差并不严格等于模型的泛化误差。
第一种原因被称为特征间的多重共线性,会导致模型不稳定,从而影响结果;第二种具体体现为过拟合和欠拟合的现象
先介绍欠拟合和过拟合:
欠拟合主要由特征过少导致,特征太少,模型不能很好的把握住映射的规律。因为特征少,我们称模型的复杂度低。(模型优化不完全也会导致欠拟合)
过拟合可能由样本太少(该映射规律只存在于一部分样本上),特征太多(包含很多只存在于这些样本上的,未采样样本没有的特征,或者噪音太大)等导致。其中特征与样本的比例是关键。产生过拟合时,特征样本比一般很大,我们称之为模型复杂度高。
其次介绍多重共线性。多重共线性就是指样本的部分特征之间存在一定的线性关系,这会导致模型受到的这部分特征的影响较大。并且,为了平衡这部分特征造成的影响,其他特征的参数也会波动的特别大,对于这种情况,我们也称之为模型复杂度高。
解决方案:
解决欠拟合,我们可以采用线性回归的一些推广,比如多项式回归、广义线性回归。
对于过拟合,我们量化模型复杂度,并将其加入模型优化的目标函数中,并希望其尽可能的小。
3. 训练方法
批量梯度下降,随机梯度下降,小批量梯度下降。