信用卡评分系列

一、为什么会有信用评分卡?

最近更新的少了,因为工作太忙的原因,而且说了太多的房贷,后面重点讲讲信用评卡的一些东西,适合感兴趣的同学做个扫盲或者科普吧。

首先,讲讲为什么需要信用评分卡。

其实讲房贷的时候,也说过,房贷的特点是单笔大额,并且数据的标准化程度比较低,也就是说,没有那么多的格式化的数据可以让电脑做加工,因为这些数据往往是保密的,或者获取的难度相当大,譬如说婚姻数据,房产数据等等和征信还不一样,只有通过借款人提供的一些证件的影印件来得到信息,并且这些数据的初始化成本还是比较高的,需要人员来录入,并且中间的错误率可能比较高,用OCR的技术,也就是计算机识别图片,转化成文字的方法,准确率还是不高,因此,让审批授信人员来看,效率才能更加高一些。

以上就注定,房贷的审批评分卡的作用还是受到一些限制。

那么,什么样的贷款审批,用评分卡会更好呢,一般都是信贷,说白了,额度低,几百、几千不等,上万元的可能已经是额度非常高的了。

这样的业务用计算机来批量处理,效率高,且有大量的数据和模型,也能让逾期率控制在一定的范围之内,这样的业务比较适合评分卡来处理。

此外,靠人来做授信审批,还有几个问题是规避不了的,那就是:

(1)人的主观判断,不多说,不同人对同一笔业务的判断是不一样的,即使同一个人在不同的时点对同一笔业务的判断也是不一样的,主观上的差异非常大。

(2)难以量化,都说风险定价,单纯靠人的判断其实很难量化风险,如果大家坚持看的话,后面会降到利用一些程序软件(Python、Sass、R语言)、数据以及统计分析的知识,其实能够看到借款人的不同特征和风险表现之间存在的相关性的大小,利用评分卡,风险是可以被量化出来的。

(3)效率低,这个前面已经讲到了,不多赘述。

一般我们说道评分卡,都会提到A卡、B卡、C卡,这几个名词分别对应了申请评分、行为评分和催收评分,其大写的英文字母对应以上的叫法。

简单来说,
A卡就是告诉我们这个授信应该拒绝还是通过。

B卡告诉我们放款之后,客户的风险的动态变化情况。

C卡告诉我们这个客户逾期之后的还款概率有多大,其实属于行为评分的延伸。

这些就是一些基本概念了,有些衍生的概念大家可以到相关的搜索引擎上搜索一下,未来这个栏目里面的就是想用最通俗的语言试图给大家讲清楚信用评分卡。

二、评分卡得内在逻辑

小时候大家都学过函数对吧,y=f(x),这个公式大家应该都非常熟悉。

其实在信用卡评分里面,这些x就是授信人的资料里面体现的各类的变量,譬如,年龄、性别、婚姻状况、年收入、征信状况等等。

目前来看,这些x的数据来源还是挺多的,行业内的人士都知道市面上有各式各样的征信公司或叫做数据公司,来提供格式各样的数据,譬如,银行可能通过这些数据公司提供的数据就可以知道,你的电话的在网时长,你名下有没有车?什么品牌?等等的这些数据。

y就是我们尝试要给出的信用分了。

但是这些x是不是都对y有影响呢?其实就是我们需要解决的第一个问题,那就是验证,相关度高的x才会留下来,相关度不高的可能要被干掉了,不能参与到模型的计算中来。

这些x可能是连续型变量,也可能是离散型变量,咋的理解,譬如年收入,你可以理解成连续性变量,年龄也是。譬如性别,可以理解成离散型变量,男、女、不男不女。

IV值和WOE

那么如何来确定x和y的相关度高不高,需要做验证,VOI(又叫IV,信息值)来判定的

一般来说,IV值和对应的预测和解释能力如下图所示(起码要大于0.3的):
file

IV是咋算的,又要引入一个新的词了,叫做WOE(迹象权数),一会儿我会列个图来给大家展示一下这两个指标都是怎么来的。

下面会涉及到一些数学上的东西,大家做好心理准备,但是相对比较简单。

举个例子,大家一般认为年收入x对于客户信用y的相关性比较大对吧,通俗点说,有钱的人大多数会还钱,但是到底这个x对于y的相关度大不大,我们还是要做一些测试。

譬如我们现在有5000个客户,收入水平从0-1000万不等,为了计算WOE和IV,对于把收入这个连续型变量进行分组因为连续性变量是不可以穷举的,因此我们需要做的就是先把一个无限的问题转化成一个有限的问题

相关的数据如下:
file

其中WOE的计算公式是:
file

这个函数大家应该学过吧,ln是指常数e为底数的对数,e=2.718281828459......。

这个对数曲线详见下图:
file

正常件数占比/违约件数占比就是这这个函数里面的x,当x小于1的时候,也就是正常件数占比<违约件数占比的时候,WOE就是负的。反之,就是正的。

IV的计算公式是:
file

相关的计算公式在上表中已经很清楚了,不多赘述了。

至于为什么这么计算,这里面就是统计学和数据知识了,感兴趣的同学可以再往下研究研究,从做业务的角度,就先说到这里。

三、模型是咋的炼成?

前面讲了如何筛选变量,即需要看变量的IV值。

实施上,一个信用分的结果Y是和多个变量是相关的,真正信用分的函数应该是Y=F(X1、X2、X3......)。

最早开始的时候我们可能有很多个X,譬如通过IV值得计算方法提出掉了一些,现在留下了100个,那么这100个X是否可以拿来做模型呢?

还要经过一些筛选,筛选原则如下:

(1)X之间相关度比较高的,需要排除掉,只剩下一个;

(2)趋势异常的,需要排除掉;

(3)解释不易或者容易偏移的,需要提出掉。

这几个原因都比较容易理解哈,容易偏移的再后面的文章再详细说一下,这时候的这个列表我们称之为短变量列表(short list),在建立模型时候可以利用顺向进入法、反向排除法和逐步回归法等方式选择效果最优的变量组合,这三个方法看起来比较唬人,回头可以另外起一章再详细说,这次先比较粗框架的带大家先顺一下。

上面讲了如何筛选X,下面的就讲讲如何建立X和Y之间的联系,常用的方法之一就是逻辑回归。这个里面可能又涉及到数学的一些方法了啊,我们尽量简化来说。

举例如下:

假如横轴X是年收入的话,Y是好客户的概率的话(前面几张讲过如何定义好客户),那么发现年收入到一定的标准之后,Y稳定变成1。

file

其次,讲讲这个Y,一般通过逻辑回归得出的是这件事情发生的概率。

至此,严格来说,模型就已经建立了,变成了一个Y与X的函数关系。

然后再想个办法把这个概率变成一个分数,这里面可以简单理解成用了个公式转换而成的,这个有点小复杂,随后再找一章里面说吧。

四、如何评价模型的好坏?

模型的评价指标主要有2个,一个是区分度,一个是稳定度。

区分度

区分度比较简单,是指对于好客户和坏客户的识别能力,区分能力大概有以下几种情况,详细见下图:

(1)最佳分布

横轴是信用分,纵轴是定义的好、坏客户的数量,首先无论是好、坏客户的的分布都是一个正态分布,其次,在一定的分数点上,只有好客户或者坏客户,好坏是没有重叠的。

目前这个分布只存在理想中,现实中不多见,罕见,甚至看不见。
file

(2)正常分布

相对最佳分布,好坏有一定重叠。
file

(3)最差分布

好坏都重叠在一起了,说明模型比较差。
file

区分度指标设计

那么,既然有这么多种情况,区分度指标如何设计呢?常见的指标有两个,分别是K-S值以及基尼系数

K-S值主要是测量的好坏分布的最大差距,如下图所示:

file

计算公式是MAX(I(坏客户累计)%-(好客户累计)%I),值越大证明区分能力也越强;

一般来看K-S的分布范围以及对应的模型有效性如下:
file

另一个常见的指标是基尼系数,公式是A/(A+B),

file

对应的模型的解释能力如下图所示:

file

对比一下这两个指标还是有一定的差异度的,一个是取MAX,一个是取面积,中间的具体差异可以体会一下。

稳定性指标PSI

还有一个稳定度的指标,叫做PSI,意思就是这个模型是某段时间的一定范围内样本推算出来的,强调两个关键词,某时段,其他时段是否适用呢?一定范围样本,那其他的样本是否适用呢?这个偏离度如果特别高的话,那稳定度就比较低,如果偏离度低的话,稳定度就比较高

那么如何来量化的衡量呢,这就用到了PSI的公式,
file

相对应的衡量标准如下图所示:
file

可以看到模型PSI越大,即偏离度越大,就越不稳定。

模型评价的内容大概就这些了。


转载文章:
信用卡评分系列-1(为什么会有信用评分卡?)
信用卡评分系列-2(评分卡得内在逻辑)
信用卡评分系列-4 如何评价模型的好坏?)
这一次,真正搞懂信用评分模型(上篇)
这一次,真正搞懂信用评分模型(之二)

为者常成,行者常至