风控模型—群体稳定性指标 (PSI) 深入理解应用

2021-12-06 03:09:29 ⋅ 19858 ⋅ 0 ⋅ 0

一、风控业务背景

在风控中，稳定性压倒一切。原因在于，一套风控模型正式上线运行后往往需要很久（通常一年以上）才会被替换下线。如果模型不稳定，意味着模型不可控，对于业务本身而言就是一种不确定性风险，直接影响决策的合理性。这是不可接受的。

本文将从稳定性的直观理解、群体稳定性指标（Population Stability Index，PSI）的计算逻辑、PSI背后的含义等多维度展开分析。

Part 1. 稳定性的直观理解
在日常生活中，我们可能会看到每月电表、水表数值的变化。直观理解上的系统稳定，通常是指某项指标波动小（低方差），指标曲线几乎是一条水平的直线。此时，我们就会觉得系统运行正常稳定，很有安全感。

在数学上，我们通常可以用变异系数（Coefficient of Variation，CV）来衡量这种数据波动水平。变异系数越小，代表波动越小，稳定性越好。

变异系数的计算公式为：变异系数 C·V =（标准偏差 SD / 平均值Mean ）× 100%
那么，是不是只用用变异系数就可以了呢？方便、直观。——答案是否定的。在机器学习建模时，我们基于假设“历史样本分布等于未来样本分布”。因此，我们通常认为：

模型或变量稳定 <=> 未来样本分布与历史样本分布之间的偏差小。
然而，实际中由于受到客群变化（互金市场用户群体变化快）、数据源采集变化（比如爬虫接口被风控了）等等因素影响，实际样本分布将会发生偏移，就会导致模型不稳定。

Part 2. 群体稳定性指标（Population Stability Index，PSI）的理解
如果你有基础的风控建模经验，想必会很熟悉PSI（Population Stability Index）指标。PSI反映了验证样本在各分数段的分布与建模样本分布的稳定性。在建模中，我们常用来筛选特征变量、评估模型稳定性。

那么，PSI的计算逻辑是怎样的呢？很多博客文章都会直接告诉我们，稳定性是有参照的，因此需要有两个分布——实际分布（actual）和预期分布（expected）。其中，在建模时通常以训练样本（In the Sample, INS）作为预期分布，而验证样本通常作为实际分布。验证样本一般包括样本外（Out of Sample，OOS）和跨时间样本（Out of Time，OOT）。

我们从直觉上理解，是不是可以把两个分布重叠放在一起，比较下两个分布的差异有多大？

file

PSI的计算公式也告诉我们，的确是这样的：
file

为者常成，行者常至

风控模型—群体稳定性指标 (PSI) 深入理解应用

AI

作者：Corwien

专栏推荐

风控模型—群体稳定性指标 (PSI) 深入理解应用

添加附言

AI

作者：Corwien

专栏推荐