模型评估与训练方法总结

1. 分类模型评估准则

1.1 错误率和精度

错误率：分类错误的样本数占样本总数的比例；
精度：分类正确的样本数占样本总数的比例。

其中，对于数据分布 $D$ 和概率密度 $p(\cdot)$ ，错误率和精度可以以期望的形式描述

1.2 查准率与查全率

查准率（准确率）（precision）：
在判别西瓜好坏的问题中，其代表“挑出的西瓜中有多少比例是好瓜”
在信息检索中，其代表“用户感兴趣的信息有多少被检索出来了”

查全率（召回率）（recall）：
在判别西瓜好坏的问题中，其代表“所有好瓜中有多少比例被挑了出来”
在信息检索中，其代表“用户感兴趣的信息中有多少被检索出来了”

查准率与查全率是基于混淆矩阵定义的
在这里插入图片描述

其中，查准率 $P=\cfrac{TP}{TP+FP}$ ，查全率 $R=\cfrac{TP}{TP+FN}$

查准率和查全率通常是矛盾的。

在分类问题中，我们可以通过回归模型拟合样本属于某一类别的概率。通常，我们讲概率大于0.5的视为正例，概率小于0.5的视为负例。

但是，该阈值是可以调整的。如果我们调高阈值（比如提高到0.8），也就调高了查准率，因为我们只把更有把握判断准确的样本视为证例。但是，部分可能性相对较低（介于0.5~0.8之间）的正例样本，将被视为负例，这会降低查全率。

类似的，如果我们调低阈值，查准率会降低，查全率会提高。

1.3 $F_1$ 与 $F_\beta$

为了整合查准率P和查全率R两个指标，并用数学关系将其描述，我们定义一个新指标 $F_1$ ，为P和R的调和平均数。 $F_\beta$ 为P和R的加权调和平均数，是 $F_1$ 的推广；同时， $F_1$ 是 $F_\beta$ 的特殊形式。

他们的定义如下：

$\cfrac{1}{F_1}=\cfrac{1}{2}\cdot(\cfrac{1}{P}+\cfrac{1}{R})$

$\cfrac{1}{F_\beta}=\cfrac{1}{1+\beta^2}\cdot(\cfrac{1}{P}+\cfrac{\beta^2}{R})$

其中， $F_1=\cfrac{2\cdot P\cdot R}{样本总数+TP-TN}$

1.4 ROC与AUC

在这里插入图片描述

ROC基于阈值，统计正例样本的数目，并做归一化
AUC（area under ROC curve）计算ROC曲线下的面积，并作为衡量模型泛化能力的一项指标。

2. 回归模型评估准则

2.1 误差

对于一个回归模型，评判它性能的最好方式就是看的泛化误差。
最常见的误差的定义就是均方误差 $mse=\displaystyle\sum_{i=0}^{n}{(\hat{y}-y)^2}$

同时，为了达成使模型的泛化误差尽可能的小的目标，我们会选择使模型在训练集上的误差也尽可能小的策略来优化模型。其中，以mse作为优化目标训练模型的算法叫做最小二乘（least squares）

2.2 模型复杂度

光把“减少模型在训练集上的误差”作为训练模型的策略是不够的。第一是因为，在实际应用中，样本并不符合特征间相互独立的假设；第二是因为，训练集上的误差并不严格等于模型的泛化误差。

第一种原因被称为特征间的多重共线性，会导致模型不稳定，从而影响结果；第二种具体体现为过拟合和欠拟合的现象

先介绍欠拟合和过拟合：

欠拟合主要由特征过少导致，特征太少，模型不能很好的把握住映射的规律。因为特征少，我们称模型的复杂度低。（模型优化不完全也会导致欠拟合）

过拟合可能由样本太少（该映射规律只存在于一部分样本上），特征太多（包含很多只存在于这些样本上的，未采样样本没有的特征，或者噪音太大）等导致。其中特征与样本的比例是关键。产生过拟合时，特征样本比一般很大，我们称之为模型复杂度高。

其次介绍多重共线性。多重共线性就是指样本的部分特征之间存在一定的线性关系，这会导致模型受到的这部分特征的影响较大。并且，为了平衡这部分特征造成的影响，其他特征的参数也会波动的特别大，对于这种情况，我们也称之为模型复杂度高。

解决方案：

解决欠拟合，我们可以采用线性回归的一些推广，比如多项式回归、广义线性回归。

对于过拟合，我们量化模型复杂度，并将其加入模型优化的目标函数中，并希望其尽可能的小。

3. 训练方法

批量梯度下降，随机梯度下降，小批量梯度下降。

模型评估与训练方法总结

模型评估与训练方法总结

1. 分类模型评估准则

1.1 错误率和精度

1.2 查准率与查全率

1.3 F 1 F_1 F1​与 F β F_\beta Fβ​

1.4 ROC与AUC

2. 回归模型评估准则

2.1 误差

2.2 模型复杂度

3. 训练方法

1.3 $F_1$ 与 $F_\beta$