数据准备非常重要:
1.从不同的渠道收集数据;
2.清理数据中意外错误或被认为是极端值的取值;
3.生成衍生的变量(feature)。

在数据处理过程,需要进行的操作:

当名义变量的取值大于12个,考虑降低基数:
1>将相同含义的变量合并;
2>出现频率下的类别被合并为一个新的类别,并给予一个合理的标识,如other。
3>合并变量的类别使得某些预测力指标最大化。
下面是采用决策树的方法,对于有12个类别的某个feature,首先把所有的看成一个分组,然后找出最优的二元分割方法,具体见《信用风险评分卡研究》的P92。

降低基数,连续变量分段
还有其他的一些降低基数的指标。

降低基数,连续变量分段

连续变量的分段:
连续变量必须分段,为了方便构建打分卡,两种方法:等距分段和最优分段。
等距分段是指分段的区间是一样的,比如客户年龄以10岁为间隔分段。
最优分段是使得该变量的预测能力指标得到优化,相当于名义变量降低基数的最优分群。
如下是采用决策树的方法,先规定最小分段的规模,然后进行初始的等距分段(取值顺序保持原始变量的顺序),然后利用决策树二分法,进行分组,知道组数达到设定的分组数量。
降低基数,连续变量分段

抽样和权重计算
数据库的数据量大,采取抽的方法获取数据,用户信用评分卡的开发。
有3中常见的抽样方法:
1>随机抽样;
2>均衡(对称)抽样;
3>分层抽样。
1.随机抽样
从总体中随机抽取两个不相交的样本集,一个用户训练,一个用户验证。
2.均衡抽样
从总体中抽样的两个样本集,每个样本集中的违约比率与初始总体不同。
————————————————
版权声明:本文为CSDN博主「心雨心辰」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/xidianliutingting/article/details/53260363

相关文章:

  • 2021-09-21
  • 2022-12-23
  • 2021-05-18
  • 2021-05-20
  • 2021-12-08
  • 2022-12-23
  • 2021-09-24
猜你喜欢
  • 2022-12-23
  • 2021-12-23
  • 2021-10-08
  • 2022-12-23
  • 2022-12-23
  • 2021-07-29
  • 2021-09-02
相关资源
相似解决方案