DataScience&ML:金融科技领域之迁徙率的简介、案例应用之详细攻略
目录
金融科技领域之迁徙率的简介、案例应用
(1)、概念定义
T1、先设置观察期,再看表现
T2、只看每个月的的账户在下个月的表现
(2)、迁徙率—案例理解
金融科技领域之迁徙率的简介、案例应用
贷款迁徙率,经济学领域术语,计算方法为期初正常类贷款向下迁徙金额/(期初正常类贷款余额-期初正常类贷款期间减少金额)×100%。
(1)、概念定义
T1、先设置观察期,再看表现
推荐文章:https://zhuanlan.zhihu.com/p/81027037
T2、只看每个月的的账户在下个月的表现
概念定义 | |
时间窗口 | 每个时间窗口由一个月和下一个月的数据构成。例如我拿一年的数据,例如2019年,就有11个观察窗口(1-2月,2-3月....11-12月)。比如2019年11个时间窗口就是“11-12月” |
逾期期数 | 每个期数由30天组成(有的银行或者金融机构由自然月组成,会更加方便计算)。较多的金融机构会用Mn来形容逾期情况,例如 M0:当前未逾期 M1: 逾期1-30日 M2:逾期31-60日 M3:逾期61-90日 M4:逾期91-120日 以此类推...... |
此处的逾期和观察窗口(这个月、下个月)没有关系。观察窗口是相对关系;而逾期期数的大小,是从该客户逾期第一天开始计算,是一个绝对数值。
纵坐标是前月的逾期期数情况(时间窗口左边界);横坐标是次月的逾期期数情况(时间窗口右边界)。计算方式,例如我们只有两个时间窗口。在时间窗口【1月-2月】里有50个客户保持未逾期,【2月-3月】有100个客户保持未逾期,那么坐标[1,1]的总数会是150。
(2)、迁徙率—案例理解
假设经过分析2019年11个时间窗口后,当前月(11月)、下个月(次月12月),我们得到以下一个统计表。
所有时间窗口的迁徙情况总和
下个月 | ||||||||
未逾期 | 逾期[0,30) | 逾期[30,60) | 逾期[60,90) | 逾期[90,120) | 逾期[120,∞) | 总计 | ||
当前月 | 未逾期 | 8000 | 250 | 1 | 0 | 0 | 0 | 8251 |
逾期[0,30) | 700 | 500 | 80 | 0 | 0 | 0 | 1280 | |
逾期[30,60) | 120 | 80 | 76 | 79 | 10 | 5 | 370 | |
逾期[60,90) | 70 | 25 | 19 | 60 | 60 | 5 | 239 | |
逾期[90,120) | 20 | 1 | 10 | 8 | 30 | 50 | 119 | |
逾期[120,∞) | 2 | 2 | 6 | 4 | 1 | 20 | 35 | |
总计 | 8912 | 858 | 192 | 151 | 101 | 80 | 10294 |
比如,
8000=11月未逾期客户数+12月未逾期客户数
700 =11月逾期M1客户数+12月未逾期客户数
转换成百分比,并根据值的大小,用颜色标出来
所有时间窗口的迁徙情况百分比
下个月 | ||||||||
未逾期 | 逾期[0,30) | 逾期[30,60) | 逾期[60,90) | 逾期[90,120) | 逾期[120,∞) | 总计 | ||
当前月 | 未逾期 | 96.96% | 3.03% | 0.01% | 0.00% | 0.00% | 0.00% | 100% |
逾期[0,30) | 54.69% | 39.06% | 6.25% | 0.00% | 0.00% | 0.00% | 100% | |
逾期[30,60) | 32.43% | 21.62% | 20.54% | 21.35% | 2.70% | 1.35% | 100% | |
逾期[60,90) | 28.29% | 10.46% | 7.95% | 25.10% | 25.10% | 2.09% | 100% | |
逾期[90,120) | 16.81% | 0.84% | 8.40% | 6.72% | 25.21% | 42.02% | 100% | |
逾期[120,∞) | 5.71% | 5.71% | 17.14% | 11.43% | 2.86% | 57.14% | 100% | |
总计 |
(1)、迁徙情况百分比关注重点
只需要关注黑色框框的部分,也就是彩色背景的部分
解释:因为那些已经好转了的账户我们不管了,因为不是我们的催收对象,我们需要看的是逾期情况没有好转甚至恶化的客户。一个时间窗口内你的逾期情况最多往前一格(遇到天数为31天的有可能小概率逾期两格,但较少发生,统计时可忽略)。用直白的语言说,就是你现在逾期10天,给你一个月,你怎么也不可能逾期超过60天吧?
(2)、迁徙情况百分比的意义
说明了某个逾期期数的风险情况。我们这里用“从良”这个不太恰当但好理解的词来形容账户逾期期数变少。例如在上表里,
这个月当逾期<30天时,54.69%的客户都会在下个月还上款(因为大概率是忘了还款日而不是没钱还);
而这个月逾期在[90-119]天时:有42.02%的客户的逾期期数会继续增加(确实手头缺钱还不上);25.21%的客户逾期期数会保持不变(手头紧,仅还得上一期的欠款以确保账户不会被清算)。
“从良”占比:也就说是,当逾期天数超过90天,客户“从良”的概率只有(100-25.21-42.02)% = 32.77%。也就说,很大概率这个客户的情况会一直恶化下去,所以我们需要在Ta恶化前,就挑出来催收,以减少损失。“从良”的占比行业经验:至于低于多少就不能接受,则需要和商业部门沟通。但从良的少于1/3确实挺少了。
(3)、提前预测90天后是否逾期
此处并非指逾期真的超过90天才催收,而是说,我预测这个人将来会逾期超过90天,所以我在他达到那个逾期时间前就去催收,避免严重逾期的发生。
1.1.2、定义观察期-利用elbow method(手肘法则)
刚才我们通过分析,确定了目标里的逾期天数是90天以上。那么目标里的观察期是如何做的呢?
一个客户开始逾期后(超过一天),要达到90天以上的逾期少则需要3个月,多则可以无限多个月。如果观察期短了,我们会漏抓了很多客户,如果观察期太长,例如无限长,你确实能抓住100%的逾期在90天以上客户,但观察期太长了,逾期的客户一直没人理就会一直恶化。所以一个合理的观察期很重要。
为了找到一个合理的观察期,我们需要分析逾期月数与逾期客户总数的情况,例如再某个银行,通过分析,我得到一个逾期月数与逾期客户数的情况表:
可以看到,逾期90以上的客户,95%的都发生在6个月内。但你也许会说,9个月能检测到97%,不是更好吗?但记得经济学里的“边际效用”这个词吗?意思是再增加投入,新增的产出会变少。用一个知乎上热门的词语来形容,就是“内卷”。我们分析时也是。再追加一个月观察期,对效用的提升不明显,反而引入更多风险。当“内卷”发生时,就不再增加观察期了。
所以我的经验是用elbow method,也就是寻找曲线的“转折点”,就像手肘一样。(如果你熟悉k-means,那么你可能记得,在k-means里,我们决定怎么选择k值的一个算法是elbow method。这里就不展开讲k-means了,如果真的不熟悉,也不影响本文阅读)。
把上表plot出来,得到下面一个图,其中转折点(或者说‘手肘)用红圈划出来了:
可以看到,但观察期为6个月时,我们能抓到的逾期客户已经很多了。再加一个月,能抓到的增量也很少了,边际效用明显降低了很多。所以我们就可以把观察期设置为6个月。
对于普通的信贷产品,一般情况下这个转折点还是很好观察到的。但看到这里你也许想问,如果没有明显的转折点(elbow),该怎么抉择呢?这就复杂了。但如果你的信贷产品真的找不到一个明显的elbow point,你画出来的曲线比上面的曲线平滑得多,怎么办呢?
这确实是一个难题,且没有一个标准的答案。但你可以和商业部分探讨下面几个问题:
当逾期超过90天的客户比例是多少时,我们的资产会出现亏损?然后你可以以这个比例作为嘈参照,选择响应的观察期。
逾期90天是不是一个好的选择?能不收紧标准,把逾期天数检测缩短到60天,这样做对客户体验造成什么影响?