卷积神经网络的深入理解-评测指标篇
绪论
这一篇主要是介绍一下模型的评测指标,与上几篇文章一样都会持续更新。
什么是评测指标?
评测指标是用来定量衡量模型的性能的,是作为各种方法比较的一个标准。
评测指标可以分为分类任务的评测指标和回归任务的评测指标
下面会详细介绍两种任务的评测指标。
分类任务评测指标
1、准确率/召回率/精确度/F1-score
在这之前我们要了解几个概念:
* | 正例(预测) | 反例(预测) |
---|---|---|
正例(真实情况) | TP(真正例(true positive)预测为正,真实情况为正时) | FN(假反例(false negative)预测为反,真实情况为正时) |
反例(真实情况) | FP(假正例(false positive)预测为正,真实情况为反时) | TN(真反例(true negative)预测为反,真实情况为反) |
准确率(Accuracy):
A
c
c
u
r
a
c
y
=
(
T
P
+
T
N
)
(
T
P
+
F
P
+
T
N
+
F
N
)
=
预
测
正
确
的
样
本
数
总
的
样
本
数
Accuracy=\frac{(TP+TN)}{(TP+FP+TN+FN)}=\frac{预测正确的样本数}{总的样本数}
Accuracy=(TP+FP+TN+FN)(TP+TN)=总的样本数预测正确的样本数
精确度(Precision)(注意这里正反是相对的):
P
r
e
c
i
s
i
o
n
=
T
P
T
P
+
F
P
=
预
测
正
确
的
正
样
本
数
预
测
为
正
的
样
本
数
Precision=\frac{TP}{TP+FP}=\frac{预测正确的正样本数}{预测为正的样本数}
Precision=TP+FPTP=预测为正的样本数预测正确的正样本数
或
P
r
e
c
i
s
i
o
n
=
T
N
F
N
+
T
N
=
预
测
正
确
的
负
样
本
数
预
测
为
负
的
样
本
数
Precision=\frac{TN}{FN+TN}=\frac{预测正确的负样本数}{预测为负的样本数}
Precision=FN+TNTN=预测为负的样本数预测正确的负样本数
本质上是一样的,只不过一般选择正样本计算精确度。
召回率(Recall)(与精确度一样,只选择正样本计算召回率):
R
e
c
a
l
l
=
T
P
T
P
+
F
N
=
预
测
正
确
的
正
样
本
数
真
实
标
签
为
正
的
样
本
数
Recall=\frac{TP}{TP+FN}=\frac{预测正确的正样本数}{真实标签为正的样本数}
Recall=TP+FNTP=真实标签为正的样本数预测正确的正样本数
即正样本有多少被召回。
F1-score:
F
1
s
c
o
r
e
=
2
∗
P
r
e
c
i
s
i
o
n
∗
R
e
c
a
l
l
P
r
e
c
i
s
i
o
n
+
R
e
c
a
l
l
F1 score=\frac{2*Precision*Recall}{Precision+Recall}
F1score=Precision+Recall2∗Precision∗Recall
2、Precision/Recall(P-R)曲线
Precision/Recall曲线也叫做P-R曲线,Precision与Recall是一对矛盾的变量。
从图中可以看出:
1、召回率增加,精度下降;
2、曲线与坐标值面积越大,性能越好;但是有时面积不好计较,那么就选择
y
=
x
y=x
y=x与P-R曲线的交点也叫作平衡点(BEP)比较BEP,越大的学习器越优。
3、对正负样本不均衡问题较敏感。
3、ROC曲线
ROC曲线的横坐标是false positive rate(FPR):
F
P
R
=
F
P
(
F
P
+
T
N
)
=
将
反
例
预
测
为
正
例
的
样
本
数
标
签
为
反
的
样
本
数
FPR=\frac{FP}{(FP+TN)}=\frac{将反例预测为正例的样本数}{标签为反的样本数}
FPR=(FP+TN)FP=标签为反的样本数将反例预测为正例的样本数
纵坐标为true positive rate(TPR)
T
P
R
=
T
P
(
T
P
+
F
N
)
=
将
正
例
预
测
为
正
例
的
样
本
数
标
签
为
正
的
样
本
数
TPR=\frac{TP}{(TP+FN)}=\frac{将正例预测为正例的样本数}{标签为正的样本数}
TPR=(TP+FN)TP=标签为正的样本数将正例预测为正例的样本数
下图来自阿里公开课
ROC曲线对正负样本不均衡问题不敏感。
那么该选择PR曲线还是ROC曲线呢?
这里引用了这篇博客P-R曲线及与ROC曲线区别
1、在很多实际问题中,正负样本数量往往很不均衡。比如,计算广告领域经常涉及转化率模型,正样本的数量往往是负样本数量的1/1000,甚至1/10000。若选择不同的测试集,P-R曲线的变化就会非常大,而ROC曲线则能够更加稳定地反映模型本身的好坏。所以,ROC曲线的适用场景更多,被广泛用于排序、推荐、广告等领域。
2、但需要注意的是,选择P-R曲线还是ROC曲线是因实际问题而异的,如果研究者希望更多地看到模型在特定数据集上的表现,P-R曲线则能够更直观地反映其性能。
3、ROC兼顾了正负样本。当正负样本比例失调时,比如正样本1个,负样本100个,则ROC曲线变化不大,此时用PR曲线更加能反映出分类器性能的好坏。
4、AUC面积
AUC面积其实就是ROC曲线的下半部分面积,与P-R图类似,通过比较AUC面积来比较学习器的优劣,面积大的更优。