0
点赞
收藏
分享

微信扫一扫

排序损失的定义(西瓜书笔记2)

少_游 2022-02-16 阅读 50

我在学习西瓜书的性能度量部分的内容时,对ROC曲线中的“排序”损失lrank(loss)的定义:
在这里插入图片描述
书上这样描述到:“容易看出lrank 对应的是ROC曲线之上的面积,因此有AUC=1-lrank
当然我觉得这个容易的不是很容易,所以我就写了点我的理解,希望可以帮到大家。
用特例证明一下:
假设有5对正反例:
正例预测结果概率为(0.9, 0.8, 0.5, 0.4, 0.3);
反例预测结果概率为(0.7, 0.6, 0.2, 0.1, 0.01);
那么总排序为(红色为正例概率,黑色为反例概率):
在这里插入图片描述我们可以画出ROC曲线
在这里插入图片描述
可以观察到,每个虚线所框出的方格面积为1 /m+ m-,所以反例概率比正例概率大的情况共有32=6种,所以排序损失对应ROC 曲线之上的6个方格的面积 .再考虑另一种情形:依然有5对正反例:正例预测结果概率为(0.9, 0.8, 0.5, 0.4, 0.3); 反例预测结果概率为(0.7, 0.5, 0.2, 0.1, 0.01);那么总排序可以有两种情况为(红色为正例概率,黑色为反例概率):
在这里插入图片描述
故 ROC 曲线有相应的两种情况(红色和绿色分别对应情况一与二):
在这里插入图片描述
这时,反例概率比正例概率大的情况共有1+2
2=5种,而反例概率与正例概率相同的情况可认为各占一半,所以得出总的排序损失为(5+1/2)×1 /m+ m-
这就证明了原公式的含义:
在这里插入图片描述

举报

相关推荐

0 条评论