56星座屋
当前位置: 首页 星座百科

分类模型的常见度量指标(模型评估指标之间的一些联系)

时间:2023-05-22 作者: 小编 阅读量: 5 栏目名: 星座百科

TPR为预测为正例且实际为正例的样本占所有正例样本的比例,即所有好样本中通过样本的占比。由于KS值是取TPR和FPR之差的最大值,可以理解为两个累计分布之差。还有一根蓝色的曲线是累计的Lift曲线,是将累计的坏样本比例除以整体的坏样本占比所得,这条线是的临界点是1。

信贷评分模型的评估指标常见的有P-R曲线、AUC、KS、混淆矩阵、AR、洛伦茨曲线等,各个评估指标之间都有或多或少的联系和区别,从而从不同角度对模型进行评估。本文尝试写一些各个评估指标间的联系,从而对模型评估指标有更加深入的理解。

目录

  1. 正负样本的选择
  2. 混淆矩阵与概率密度分布
  3. 提升图与洛伦茨曲线
  4. 洛伦茨曲线与KS
  5. KS与AUC值
  6. 参考资料

一、正负样本的选择

直观上,在信贷风控建模中都以好样本为正样本,以坏样本为负样本。其实正负样本的选择不同直接影响的就是混淆矩阵,在以好样本为正样本的情况下,信贷业务的一些指标如通过率与坏账率如下:

通过率,即模型判断为好样本的数量占总样本的数量。

坏账率为模型判断为好样本(P)中真正的坏样本(FP)所占的比例。

而模型的准确率Precison定义为模型判断为好样本中真正的好样本所占比例,即:

由此可见,坏账率就是1-Precison,在模型优化时设法让Precison值更高,即通过样本中的好样本占比尽可能高,这是一个很好的性质,也是将好样本作为正样本的优点。但同时其他的一些指标比如F1指标,这个时候就是无效的。

在机器学习中,往往是将少数样本定义为正样本,在信贷模型也就是将坏样本定义为正样本,表示希望模型在训练时更加关注坏样本,控制模型对坏样本的预测能力,这也更符合业务场景。

总结一下,正负样本的选择没有强制要求,根据自身需求而定,不同正负样本的选择会对指标的表现方式产生影响。

二、混淆矩阵与概率密度分布

为了便于理解,以好样本为正样本,将混淆矩阵与正负样本的概率密度函数对应到一张图上:

虚线左边为拒绝的样本,即经模型预测低于cutoff值的坏样本;右边为通过的样本,即经模型预测高于cutoff的好样本。FN为模型预测为坏样本但实际为正样本,即被误拒的好人;FP为模型预测为好样本但实际为坏样本,即误准入的坏人。

TPR为预测为正例且实际为正例的样本占所有正例样本的比例,即所有好样本中通过样本的占比。

FPR为预测为正例但实际为负例(误准入)的样本占所有负例样本的比例,即所有坏样本中被误准入的样本占比。

由于KS值是取TPR和FPR之差的最大值,可以理解为两个累计分布之差。以上图中的cutoff值为例,虚线往左移则TP增加的比例要小于FP增加的比例,虚线往右移则TP减少的比例大于FP减少的比例,因此只有在虚线处TP的占比与FP的占比差值最大,也就是KS的取值。所以上图中三条线交叉的地方取到的cutoff值,正好为KS值对应的cutoff值。

三、提升图与洛伦茨曲线

提升图比较的是采用模型与不采用模型带来的改善,即采用模型后对坏样本识别能力的提升程度。计算过程如下图:

上图中的右侧有两条曲线,绿色的这根是Lift曲线,它是将每一组的坏样本占比除以整体的坏样本占比得到。这条曲线是趋于0的,且越陡说明模型的区分度越高。还有一根蓝色的曲线是累计的Lift曲线,是将累计的坏样本比例除以整体的坏样本占比所得,这条线是的临界点是1。

如果将用模型判断得到的每组累计坏样本占比与随机判断每组的累计坏样本占比进行绘图,就得到洛伦茨曲线,计算方式如下图:

洛伦茨曲线如下:

用洛伦茨曲线比较模型性能时,较好的模型的洛伦茨图应该更偏向于左上方坐标轴,这种比较模型性能的方式与ROC曲线相同。上图中洛伦茨曲线上一点的含义是:在通过率为50%的情况下,模型可以识别出80%的坏样本。

现在知道洛伦茨曲线越往左上方说明模型的性能越好,因此可以用一个指标来量化这种性质,如上图将图形分为A、B、C三块区域,理想状态下A的面积等于A B的和,此时可以完美地识别所有坏样本。因此,将A和A B的比值定义为基尼系数,也叫作AR值。

四、洛伦茨曲线与KS

洛伦茨曲线中在给定通过率后,只能得到对坏样本的识别能力,并没有反应对好样本的识别能力。而K-S曲线的本质是对坏样本的洛伦茨曲线和好样本的洛伦兹曲线构成的。

所以,上图中坏样本的累计占比曲线就是FPR,好样本的累计占比曲线就是TPR。上图中KS值为0.36,其含义是在通过率为62%时,模型能识别70%的逾期用户,但有34%的好样本被误判为坏样本拒绝。

KS值的高低与建模样本中的坏样本浓占比相关,并不是KS值越高风控就越好。下面是知乎"独孤qiu败"文章中的一个例子:

(1)如果建模样本中好坏样本比例good/bad=50/50,坏账率为50%;k-s值0.6指的是如果在误杀20%好用户的情况下可以识别80%的坏样本;那么使用模型之后的结果为good/bad=40/10,坏账率变为20%;这个我们做风控策略的人都知道在使用一些较好的变量的情况下是有可能的,因为毕竟做到50%的坏账已经是够烂的了。(2)如果建模样本中好坏样本比例good/bad=80/20,坏账率为20%;k-s值0.6指的是如果在误杀20%好用户的情况下可以识别80%的坏样本;那么使用模型之后的结果为good/bad=64/4,坏账率变为5.88%,其实我们知道这个一个模型是很难做到。

五、KS与AUC值

这一部分直接搬运求是汪的文章了,风控模型—区分度评估指标(KS)深入理解应用。

因为KS = |TPR - FPR|,如果添加辅助线TPR = FPRKS,那么这条直线的截距就是KS值。当与ROC曲线相切时,截距最大,也就对应max_ks。

在理解KS和ROC曲线的关系后,我们也就更容易理解——为什么通常认为KS在高于75%时就不可靠?我们可以想象,如果KS达到80%以上,此时ROC曲线就会变得很畸形,如下图:

六、参考资料

1.《Python金融大数据风控建模实战》

>【作者】:Labryant

>【原创公众号】:风控猎人

>【简介】:某创业公司策略分析师,积极上进,努力提升。乾坤未定,你我都是黑马。

>【转载说明】:转载请说明出处,谢谢合作!~

,
    推荐阅读
  • 看图猜成语比较难的(似曾相识的感觉)

    是不是完全想不起有什么成语可以描述那?都是器官,这是什么成语?小编表示我也是看答案才知道的这个很简单啦,谁都希望找一个这样的老婆仔细看看缺少什么哦,想起来么有?

  • 冬红果和海棠果树区别(冬红果和海棠果树区别介绍)

    冬红果和海棠果树区别品种不同冬红果是园艺品种,属于苹果属蔷薇科的落叶稀半常绿乔木或灌木。海棠果则是蔷薇科的乔木种类,属于红厚壳属。所以两者并不是同一种植物,通过品种划分,能够明显看出两者差别。冬红果的叶片是椭圆形至广椭圆形,虽然边缘也有锯齿,但是和海棠果树相比,锯齿形态为圆钝样式。而海棠果的果实味甘微酸,比较适合人类使用。

  • 景德镇市派出所地点及联系电话一览 景德镇派出所电话号码

    景德镇市新村派出所地址:景德镇市珠山区新村北路景德镇市昌河派出所地址:景德镇市昌江区朝阳路景德镇市新厂派出所地址:景德镇市昌江区朝阳路666号景德镇市车站派出所地址:景德镇市珠山区通站路景德镇市里村派出所地址:景德镇市珠山区新厂西路景德镇市西郊派出所地址:景德镇市昌江区奥园路景德镇市珠山派出所地址:景德镇市珠山区风景路26号景德镇市竟成派出所地址:景德镇市珠山区曙光路景德镇市昌江派出所地址:景德镇

  • 凯迪拉克xt5推2.0t车型百米刹车(搭载蜂鸟悬架四驱科技)

    凯迪拉克xt5推2.0t车型百米刹车近日,上汽通用凯迪拉克XT5新增车型宣布上市,新增车型为豪华型四驱(蜂鸟版),售价为38.27万。该车在豪华型基础上进行升级,搭载全新蜂鸟悬架和蜂鸟四驱系统,进一步提升通过性与舒适性。细节部分,新车外观内饰设计未作变化,依旧延续了现款车型的设计理念。最后:作为一款豪华SUV车型,凯迪拉克XT5出色的静谧性,以及不错的豪华感和行驶舒适性,已经在该级别车型中属于佼佼者。

  • 祝福友谊的十句话(祝福朋友友谊的唯美句子)

    祝福朋友友谊的唯美句子幸在我最美好的年华里,遇见了一个愿意陪我疯的你谢谢你一直陪伴在我身边,不离不弃祝愿我们友谊长青亲爱的朋友,友情,如蓝天下碧蓝的湖水,美丽安然;祝福,如夜空中的繁星点点,夺目耀眼祝福依然,愿不变的幸福,。

  • 学生人生格言励志座右铭(人生格言)

    必须有容忍的雅量,仁德才能宏大;必须有忍耐的毅力,凡事才会成功。不要紧的事情也应尽快处理,动作快则有效率。对于紧急的事情反倒是应该放缓步调,因为忙中必然露出自己的破绽。为官一日,要行一日好事。

  • 奇闻cp获官方肯定(奇闻cp齁甜日常更新)

    犹记得在《心动的信号2》里面的他们,杨凯雯乖巧可爱,赵琦君待人真诚,一开始的他们并没有很熟,随着一次又一次的接触,他们之间的关系才越发熟络起来。除此之外,两人一起去动物园的甜蜜约会,赵琦君去追独自外出买厨房用品的杨凯雯的画面,每一幕都很齁甜,也是他们爱情的见证。

  • 原神智识之冕有什么用(原神智识之冕作用是什么)

    以下内容大家不妨参考一二希望能帮到您!原神智识之冕有什么用当我们升级角色的天赋技能由9级提升至10级的时候就需要用到智识之冕,升级一次需求量在1-2个智识之冕之前不等。当前版本中大家角色的天赋技能等级都不是太高,短期内对于智识之冕需求并不是太多,我们可以先攒着之后肯定是要给主C用到的。在本次活动中智识之冕需要100熄星精粹才能进行兑换。每个角色的每个天赋升10级,都需要用到智识之冕。

  • 冬天喝的热饮简单(寒冷冬日热气腾腾的热饮摊位很诱人)

    下面更多详细答案一起来看看吧!冬天喝的热饮简单

  • 让牛肉变嫩的妙招(牛肉怎么做才嫩)

    下面希望有你要的答案,我们一起来看看吧!让牛肉变嫩的妙招牛肉要逆着肉的纹路切,即如果纹路是横的,则切的时候要选择与纹路垂直的方向。因为这样才能切断牛肉的纤维,入口易嚼,肉嫩。牛肉切好后,把切好的牛肉放在碗里,先腌制一下,这是让牛肉变嫩的关键。小苏打的加入是让牛肉变嫩的关键。放入半个鸡蛋清抓拌均匀,放入一小勺淀粉拌匀,牛肉就腌好了。