糖尿病康复,内容丰富有趣,生活中的好帮手!
糖尿病康复 > 分计算iv值_筛选变量的指标—IV值

分计算iv值_筛选变量的指标—IV值

时间:2018-10-30 08:01:35

相关推荐

分计算iv值_筛选变量的指标—IV值

这一期咱们聊聊筛选变量的指标——IV值。

计算公式如下:

看公式有没有很熟悉,大家没有看错,其中一部分就是WOE的计算公式。区别就在于WOE是对一个变量的每个分组的计算,IV值是对一个变量的统计指标。

如上图所示,当前使用率的IV值为1.415。

IV值的作用就是衡量一个变量整体的预测能力,好处在于每个变量的IV值是可比的。所谓的IV值(informationvalue),指的是一个变量对于判定客户属于y1还是y0的信息贡献,贡献越大,IV值越大。

然而,我们仅从公式就可以看出,对于同一个变量来说,分组分的越多,它的IV值自然越大。但是分组过多会产生另外一个问题,每个分组的数据量会变少,导致每个分组不稳定。所以我们在进行变量分箱时不能只考虑提高变量的IV,也要兼顾稳定性与业务意义。

在进行变量初筛的时候,可以直接将IV值小于0.02的变量剔除,不参与后面的算法拟合过程。这些变量即使进入变量拟合库,对判定客户的贡献也基本上等于没有。

好了,这期就先聊到这里,下期再见!

如果觉得《分计算iv值_筛选变量的指标—IV值》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。