一、评估方法

精度=1-错误率

1.1 留出法

将数据集划分为两个互斥的集合，一个作为训练集S，另一个作为测试集T，在S上训练出模型后，用T评估测试误差，作为对泛化误差的估计。

1.2 k-折交叉验证法

10-折交叉验证：

1.3 自助法

亦称“有放回采样”、“可重复采样”
样本在m次采样中始终不被采到的概率是 $(1-\frac{1}{m})^{m}$
取极限得 $\displaystyle\lim_{m \rightarrow + \infty}(1 - \frac{1}{m})^m = \frac{1}{e}$

二、性能度量

回归任务常用均方误差： $E(f;D)=\frac{1}{m}\displaystyle\sum_{i = 1}^{m}(f(x_{i})-y_{i})^2$

2.1 错误率与精度

错误率： $E(f;D)=\frac{1}{m}\displaystyle\sum_{i = 1}^{m}\textrm{ii}(f(x_{i})\neq y_{i})$
精度： $acc(f;D)=\frac{1}{m}\displaystyle\sum_{i = 1}^{m}\textrm{ii}(f(x_{i})= y_{i})=1-E(f;D)$

2.2 查准率与查全率

真实情况	预测结果
	正例反例
正例	TP FN
反例	FP TN

查准率= $P=\frac{TP}{TP+FP}$

查全率= $R=\frac{TP}{TP+FN}$

P-R曲线与平衡点示意图
比BEP更常用的F1度量： $F1=\frac{2\times P\times R}{P+R}=\frac{2\times TP}{样例总数+TP-TN}$

若对查准率/查全率有不同偏好： $F_{\beta}=\frac{(1+\beta^2)\times P\times R}{(\beta^2\times P)+R}$

$\beta>1$ 时查全率有更大影响； $\beta<1$ 时查准率有更大影响

2.3 ROC与AUC

ROC曲线纵轴是真正例率TPR，横轴是假正例率FPR
$TPR=\frac{TP}{RP+FN}$

$FPR=\frac{FP}{TN+FP}$

AUC可通过对ROC曲线下各部分的面积求和而得
$AUC=\frac{1}{2}\displaystyle\sum_{i = 1}^{m-1}(x_{i+1}-x_{i})\times (y_{i}+y_{i+1})$

2.4 代价敏感错误率与代价曲线

二分类代价矩阵

真实类别	预测类别
	第0类第1类
第0类	0 $cost_{01}$
第1类	$cost_{10}$ 0

代价敏感错误率：

三、比较检验

两学习器比较
1、交叉验证t检验
2、McNemar检验（基于列联表，卡方检验）
多学习器比较
1、Friedman检验（基于序值，F检验；判断是否都相同）
在这里插入图片描述

2、Nemenyi后续检验（基于序值进一步判断两两差别）

四、偏差与方差

$E(f;D)=(bias(x))^2+var(x)+\epsilon ^2$
期望输出与真实输出的差别：
$(bias(x))^2=(\bar{f}(x)-y)^2$
同样大小的训练集的变动所导致的性能变化：
$var(x)=E_{D}[(f(x;D)-\bar{f}(x))^2]$
当前任务上任何学习算法所能达到的期望泛化误差下界：
$\epsilon ^2=E_{D}[(y_{D}-y)^2]$
在这里插入图片描述
1)训练不足，学习器拟合能力不强，偏差主导
2)随着训练程度加强，学习器拟合能力逐渐增强，方差逐渐主导
3)训练充足，学习器的拟合能力很强，方差主导

参考文献：
《机器学习》第二章模型评估与选择——周志华