56星座屋
当前位置: 首页 星座百科

分类模型的常见度量指标(模型评估指标之间的一些联系)

时间:2023-05-22 作者: 小编 阅读量: 2 栏目名: 星座百科

TPR为预测为正例且实际为正例的样本占所有正例样本的比例,即所有好样本中通过样本的占比。由于KS值是取TPR和FPR之差的最大值,可以理解为两个累计分布之差。还有一根蓝色的曲线是累计的Lift曲线,是将累计的坏样本比例除以整体的坏样本占比所得,这条线是的临界点是1。

信贷评分模型的评估指标常见的有P-R曲线、AUC、KS、混淆矩阵、AR、洛伦茨曲线等,各个评估指标之间都有或多或少的联系和区别,从而从不同角度对模型进行评估。本文尝试写一些各个评估指标间的联系,从而对模型评估指标有更加深入的理解。

目录

  1. 正负样本的选择
  2. 混淆矩阵与概率密度分布
  3. 提升图与洛伦茨曲线
  4. 洛伦茨曲线与KS
  5. KS与AUC值
  6. 参考资料

一、正负样本的选择

直观上,在信贷风控建模中都以好样本为正样本,以坏样本为负样本。其实正负样本的选择不同直接影响的就是混淆矩阵,在以好样本为正样本的情况下,信贷业务的一些指标如通过率与坏账率如下:

通过率,即模型判断为好样本的数量占总样本的数量。

坏账率为模型判断为好样本(P)中真正的坏样本(FP)所占的比例。

而模型的准确率Precison定义为模型判断为好样本中真正的好样本所占比例,即:

由此可见,坏账率就是1-Precison,在模型优化时设法让Precison值更高,即通过样本中的好样本占比尽可能高,这是一个很好的性质,也是将好样本作为正样本的优点。但同时其他的一些指标比如F1指标,这个时候就是无效的。

在机器学习中,往往是将少数样本定义为正样本,在信贷模型也就是将坏样本定义为正样本,表示希望模型在训练时更加关注坏样本,控制模型对坏样本的预测能力,这也更符合业务场景。

总结一下,正负样本的选择没有强制要求,根据自身需求而定,不同正负样本的选择会对指标的表现方式产生影响。

二、混淆矩阵与概率密度分布

为了便于理解,以好样本为正样本,将混淆矩阵与正负样本的概率密度函数对应到一张图上:

虚线左边为拒绝的样本,即经模型预测低于cutoff值的坏样本;右边为通过的样本,即经模型预测高于cutoff的好样本。FN为模型预测为坏样本但实际为正样本,即被误拒的好人;FP为模型预测为好样本但实际为坏样本,即误准入的坏人。

TPR为预测为正例且实际为正例的样本占所有正例样本的比例,即所有好样本中通过样本的占比。

FPR为预测为正例但实际为负例(误准入)的样本占所有负例样本的比例,即所有坏样本中被误准入的样本占比。

由于KS值是取TPR和FPR之差的最大值,可以理解为两个累计分布之差。以上图中的cutoff值为例,虚线往左移则TP增加的比例要小于FP增加的比例,虚线往右移则TP减少的比例大于FP减少的比例,因此只有在虚线处TP的占比与FP的占比差值最大,也就是KS的取值。所以上图中三条线交叉的地方取到的cutoff值,正好为KS值对应的cutoff值。

三、提升图与洛伦茨曲线

提升图比较的是采用模型与不采用模型带来的改善,即采用模型后对坏样本识别能力的提升程度。计算过程如下图:

上图中的右侧有两条曲线,绿色的这根是Lift曲线,它是将每一组的坏样本占比除以整体的坏样本占比得到。这条曲线是趋于0的,且越陡说明模型的区分度越高。还有一根蓝色的曲线是累计的Lift曲线,是将累计的坏样本比例除以整体的坏样本占比所得,这条线是的临界点是1。

如果将用模型判断得到的每组累计坏样本占比与随机判断每组的累计坏样本占比进行绘图,就得到洛伦茨曲线,计算方式如下图:

洛伦茨曲线如下:

用洛伦茨曲线比较模型性能时,较好的模型的洛伦茨图应该更偏向于左上方坐标轴,这种比较模型性能的方式与ROC曲线相同。上图中洛伦茨曲线上一点的含义是:在通过率为50%的情况下,模型可以识别出80%的坏样本。

现在知道洛伦茨曲线越往左上方说明模型的性能越好,因此可以用一个指标来量化这种性质,如上图将图形分为A、B、C三块区域,理想状态下A的面积等于A B的和,此时可以完美地识别所有坏样本。因此,将A和A B的比值定义为基尼系数,也叫作AR值。

四、洛伦茨曲线与KS

洛伦茨曲线中在给定通过率后,只能得到对坏样本的识别能力,并没有反应对好样本的识别能力。而K-S曲线的本质是对坏样本的洛伦茨曲线和好样本的洛伦兹曲线构成的。

所以,上图中坏样本的累计占比曲线就是FPR,好样本的累计占比曲线就是TPR。上图中KS值为0.36,其含义是在通过率为62%时,模型能识别70%的逾期用户,但有34%的好样本被误判为坏样本拒绝。

KS值的高低与建模样本中的坏样本浓占比相关,并不是KS值越高风控就越好。下面是知乎"独孤qiu败"文章中的一个例子:

(1)如果建模样本中好坏样本比例good/bad=50/50,坏账率为50%;k-s值0.6指的是如果在误杀20%好用户的情况下可以识别80%的坏样本;那么使用模型之后的结果为good/bad=40/10,坏账率变为20%;这个我们做风控策略的人都知道在使用一些较好的变量的情况下是有可能的,因为毕竟做到50%的坏账已经是够烂的了。(2)如果建模样本中好坏样本比例good/bad=80/20,坏账率为20%;k-s值0.6指的是如果在误杀20%好用户的情况下可以识别80%的坏样本;那么使用模型之后的结果为good/bad=64/4,坏账率变为5.88%,其实我们知道这个一个模型是很难做到。

五、KS与AUC值

这一部分直接搬运求是汪的文章了,风控模型—区分度评估指标(KS)深入理解应用。

因为KS = |TPR - FPR|,如果添加辅助线TPR = FPRKS,那么这条直线的截距就是KS值。当与ROC曲线相切时,截距最大,也就对应max_ks。

在理解KS和ROC曲线的关系后,我们也就更容易理解——为什么通常认为KS在高于75%时就不可靠?我们可以想象,如果KS达到80%以上,此时ROC曲线就会变得很畸形,如下图:

六、参考资料

1.《Python金融大数据风控建模实战》

>【作者】:Labryant

>【原创公众号】:风控猎人

>【简介】:某创业公司策略分析师,积极上进,努力提升。乾坤未定,你我都是黑马。

>【转载说明】:转载请说明出处,谢谢合作!~

,
    推荐阅读
  • 减肥低卡食物做法(几乎0卡的食材)

    几乎0卡的食材今天还没出去运动,可却吃了好多好多......下午收到试吃的咸水鸭,同时又收到超喜欢的烧鸡,吃一口咸水鸭后就没停下来,味道感觉比烧鸡要微微咸,于是又打开烧鸡再尝尝比较比较,一尝又没停不下来......。

  • 常德出租车司机被杀(常德网约司机被杀案)

    杨某淇事后到公安机关投案自首,据杨某淇供述,其因悲观厌世早有轻生念头,当晚因精神崩溃无故将司机陈某杀害。目前,犯罪嫌疑人杨某淇已被公安机关刑事拘留,案件正在进一步侦办中。在坊间,人们对警方通报中嫌疑人“悲观厌世”一词多有议论。事发后,杨博淇的家人一直没有露面,陈江的家属也一直未能和他们取得联系。并达成补偿协议。3月27日,陈江的遗体被家人运往乡下的老家准备下葬。遇害司机陈江的追悼会现场。

  • 乌鲁木齐经济技术开发区招商引资(乌鲁木齐经济技术开发区)

    展厅两侧,分别放置一台梳棉机和一台全自动气流纺纱机。据介绍,该公司目前已完成一笔签约订单,洽谈多笔意向订单。该公司参加了本届亚欧博览会的线上展,带着主打的“沙枣花”品牌棉制品亮相展会。“沙枣花”牌棉被是由100%新疆长绒棉制作而成,面料采用纯棉多层纱布或黑科技液态氨60支以上的纯棉布料,加上研磨、针刺、绗缝等多项工艺组成。

  • 女性妇科疾病注意什么(是因为同房频繁吗)

    工作1年后,小婷终于有了2万元积蓄后。当天小婷就交了钱进行手术,然而在上了手术台后,她差点下不来。美容院担心出事,紧急将小婷送往医院抢救。好在送来的及时,目前小婷已经脱离危险了。部分身体没有明显症状的子宫肌瘤患者,在日常只需要定期随访即可,完全可以做到和瘤共存,无需过多担心。而一些因为子宫肌瘤出现症状而影响生活的情况,则需要及时就医进行治疗,在医生的指导下服药控制,必要时可手术切除肌瘤。

  • 梨形脸是最丑的脸吗(被说长相丑的女生)

    女生的脸型可以说是掌控全局的存在,不管五官如何整体协调才能构成美。然而并不可能人人长相漂亮,而那些总是被认为长相一般,甚至长相丑的女生,有一大部分原因,就是因为脸型没有规则感。这种脸型的女生男相会更重,因为脸型较长,导致面部的五官向中线集中,是典型的男性长相特征。这也是一种偏男相的脸型,面部整体上骨感较重,缺乏肉感。

  • 三生三世演技炸裂片段介绍(从让人绝望的主角的选角到整容般的演技)

    颜妍言今天终于忍不住要来评一评《三生三世十里桃花》这部神剧了。毕竟大家对人选是这样想象▼其实在电影版的《三生三世》的选角里大家一片叫好就能看出。▼尤其是是大幂幂一开始演司音的时候的发际线,真是让人绝望。而大幂幂却也是鼓足了劲演戏,在墨渊死后,司音要让翼族给墨渊陪葬,眼神犀利而坚决,丝毫不怀疑她的内心。感谢《三生三世》和《大唐荣耀》,在一姐受到抠图神剧以后,差点要放弃的时候,看到了来自国剧的光辉。

  • 鸿运当头花心怎么剪(鸿运当头花心剪法)

    鸿运当头花心怎么剪?鸿运当头花心怎么剪鸿运当头一生只开一次花,开花时间会有三个月,它的花期是在春末至夏初的时候,所以鸿运当头的花修剪时间是在夏末初秋的时候,要选一个阳光明媚的温暖天气进行修剪。有枯萎迹象的花都得从花径部全部剪掉,不能只剪掉花叶子,不全部剪掉。叶子发黄也要剪掉,更为美观,对于鸿运当头也更加健康。分株也要确保一株一花盆,营养才供的上,花盆不用太大但也不能太小。

  • 清洗田螺的方法(怎么清洗田螺)

    清洗田螺的方法准备一盆清水,将田螺倒入清水里,用双手将田螺表面的泥土搓洗干净,反复多搓几遍。搓洗不干净的用毛刷(刷子)一个一个慢慢的刷,表面一定要清洗干净。每半个小时更换一次清水,直到盆里看不见田螺吐出的泥土就是洗干净了。田螺去尾的方法,用一把剪刀将田螺尾部剪去,剪刀剪不动就用不好的刀将田螺尾部去除。

  • 二次元十大冷知识(二次元术语整理)

    例如,大多数的会议出席者都持赞成看法,却有一个人高唱反调,这个人就被认为KY。反感一切男女交往的活动,对于有女生给男生送便当的事情更为愤怒,且FFF团不对女性下手。所以在ACG领域里用领便当来比喻一个人物的死亡。ACG文化发源于日本,以网络及其他方式传播。宅都武汉目前已经发展成为天朝三大都会的一个大型二次元集散地中继点。像上面提到的周边世界,存在于动漫和现实之间的产物,所存在的圈子,被称为2.5次元。