风控模型—群体稳定性指标 (PSI) 深入理解应用
一、风控业务背景
在风控中,稳定性压倒一切。原因在于,一套风控模型正式上线运行后往往需要很久(通常一年以上)才会被替换下线。如果模型不稳定,意味着模型不可控,对于业务本身而言就是一种不确定性风险,直接影响决策的合理性。这是不可接受的。
本文将从稳定性的直观理解、群体稳定性
指标(Population Stability Index,PSI)的计算逻辑、PSI背后的含义等多维度展开分析。
Part 1. 稳定性的直观理解
在日常生活中,我们可能会看到每月电表、水表数值的变化。直观理解上的系统稳定,通常是指某项指标波动小(低方差),指标曲线几乎是一条水平的直线。此时,我们就会觉得系统运行正常稳定,很有安全感。
在数学上,我们通常可以用变异系数(Coefficient of Variation,CV)来衡量这种数据波动水平。变异系数越小,代表波动越小,稳定性越好。
变异系数的计算公式为:变异系数 C·V =( 标准偏差 SD / 平均值Mean )× 100%
那么,是不是只用用变异系数就可以了呢?方便、直观。——答案是否定的。在机器学习建模时,我们基于假设“历史样本分布等于未来样本分布”。因此,我们通常认为:
模型或变量稳定 <=> 未来样本分布与历史样本分布之间的偏差小。
然而,实际中由于受到客群变化(互金市场用户群体变化快)、数据源采集变化(比如爬虫接口被风控了)等等因素影响,实际样本分布将会发生偏移,就会导致模型不稳定。
Part 2. 群体稳定性指标(Population Stability Index,PSI)的理解
如果你有基础的风控建模经验,想必会很熟悉PSI(Population Stability Index)指标。PSI反映了验证样本在各分数段的分布与建模样本分布的稳定性。在建模中,我们常用来筛选特征变量、评估模型稳定性。
那么,PSI的计算逻辑是怎样的呢?很多博客文章都会直接告诉我们,稳定性是有参照的,因此需要有两个分布——实际分布(actual)和预期分布(expected)。其中,在建模时通常以训练样本(In the Sample, INS)作为预期分布,而验证样本通常作为实际分布。验证样本一般包括样本外(Out of Sample,OOS)和跨时间样本(Out of Time,OOT)。
我们从直觉上理解,是不是可以把两个分布重叠放在一起,比较下两个分布的差异有多大?
PSI的计算公式也告诉我们,的确是这样的:
相关文章:
风控模型—群体稳定性指标(PSI)深入理解应用
分享 | 关于人工智能算法建模稳定性那些事儿
模型稳定性指标PSI与CSI
为者常成,行者常至
自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)