糖尿病康复 > 风控业务-模型稳定性评价指标PSI

风控业务-模型稳定性评价指标PSI

时间：2021-01-09 21:13:20

相关推荐

风控业务-模型稳定性评价指标PSI

在风控领域的业务中，稳定性压倒一切，一套风控模型正式上线运行后往往需要很久（通常一年以上）才会被替换下线。如果模型不稳定，意味着模型不可控，对于业务本身而言就是一种不确定性风险，直接影响决策的合理性，这是不可接受的。在机器学习构建风控模型时，我们基于假设“历史样本分布等于未来样本分布”。因此，我们通常认为：

模型或变量稳定 <=> 未来样本分布与历史样本分布之间的偏差小。

然而，实际中由于受到客群变化（互金市场用户群体变化快）、数据源采集变化（比如爬虫接口被风控了）等等因素影响，实际样本分布将会发生偏移，就会导致模型不稳定。稳定度指标PSI（Population Stability Index）反映了验证样本在各分数段的分布与建模样本分布的稳定性。可衡量测试样本及模型开发样本评分的的分布差异，为最常见的模型稳定度评估指针。其实PSI表示的就是按分数分档后，针对不同样本，或者不同时间的样本，population分布是否有变化，就是看各个分数区间内人数占总人数的占比是否有显著变化。

详细示例公式如下，这里的AC与EX为不同时间段的模型输出分数：

指标解释说明如下：

最终计算的PSI指标中：

若PSI<0.1 样本分布有微小变化，模型基本可以不做调整；

若PSI 在0.1~0.2之间，样本分布有变化，根据实际情况调整评分切点或调整模型；

若PSI>0.2，样本分布有显著变化，必须调整模型。

PSI的计算过程如下：

step1：将变量预期分布（excepted）进行分箱（binning）离散化，统计各个分箱里的样本占比；
注意：
a) 分箱可以是等频、等距或其他方式，分箱方式不同，将导致计算结果略微有差异；
b) 对于连续型变量（特征变量、模型分数等），分箱数需要设置合理，一般设为10或20；对于离散型变量，如果分箱太多可以提前考虑合并小分箱；分箱数太多，可能会导致每个分箱内的样本量太少而失去统计意义；分箱数太少，又会导致计算结果精度降低；step2: 按相同分箱区间，对实际分布（actual）统计各分箱内的样本占比；step3:计算各分箱内的A - E和Ln(A / E)，计算index = (实际占比 - 预期占比）* ln(实际占比 / 预期占比) 。step4: 将各分箱的index进行求和，即得到最终的PSI；

使用表格计算PSI示例为：

在业务生产中，一般以训练集的样本分布作为预期分布，进而跨时间窗按月/周来计算PSI，在模型上线部署后，也将通过PSI曲线报表来观察模型的稳定性。测试基准日与建模基准日相隔越远，测试样本的风险特征和建模样本的差异可能就越大，因此PSI值通常较高。至此也可以看出模型建的时间太长了，是不是需要重新用新样本建模了。

风控模型不稳定时的排查方向，当通过PSI指标发现模型不稳定时，我们该如何去排查原因？引起模型不稳定的因素是多种多样的，主要包括：

申贷客群变化：获客渠道一般决定了客群质量，我们只是从客群的有限特征维度来大致判断是否变化，但这只是有偏判断，因为无法完全获知用户画像。当然，在获客阶段也会做前置风控，预先筛选流量，以及保证客群的稳定。数据源不稳定：先从CSI指标观察入模特征的分数漂移，对于影响较大和偏移较大的变量予以重点关注。再从数据源上确认采集是否可靠，比如数据服务商是否正常提供、接口是否正常工作、网关数据传输过程是否正常等。特征逻辑有误：在模型上线时，特征逻辑可能没有确认清楚，导致上线后出现意想不到的问题。因此，需要将入模特征的逻辑再次予以Review。其他相关原因：模型监控报表是否正确计算？线上依赖于离线T+1产出的数据是否正常调度？特征缺失值处理逻辑？