降低基数，连续变量分段

数据准备非常重要：
1.从不同的渠道收集数据；
2.清理数据中意外错误或被认为是极端值的取值；
3.生成衍生的变量（feature）。

在数据处理过程，需要进行的操作：

当名义变量的取值大于12个，考虑降低基数：
1>将相同含义的变量合并；
2>出现频率下的类别被合并为一个新的类别，并给予一个合理的标识，如other。
3>合并变量的类别使得某些预测力指标最大化。
下面是采用决策树的方法，对于有12个类别的某个feature，首先把所有的看成一个分组，然后找出最优的二元分割方法，具体见《信用风险评分卡研究》的P92。

降低基数，连续变量分段
还有其他的一些降低基数的指标。

降低基数，连续变量分段

连续变量的分段：
连续变量必须分段，为了方便构建打分卡，两种方法：等距分段和最优分段。
等距分段是指分段的区间是一样的，比如客户年龄以10岁为间隔分段。
最优分段是使得该变量的预测能力指标得到优化，相当于名义变量降低基数的最优分群。
如下是采用决策树的方法，先规定最小分段的规模，然后进行初始的等距分段（取值顺序保持原始变量的顺序），然后利用决策树二分法，进行分组，知道组数达到设定的分组数量。
降低基数，连续变量分段

抽样和权重计算
数据库的数据量大，采取抽的方法获取数据，用户信用评分卡的开发。
有3中常见的抽样方法：
1>随机抽样；
2>均衡（对称）抽样；
3>分层抽样。
1.随机抽样
从总体中随机抽取两个不相交的样本集，一个用户训练，一个用户验证。
2.均衡抽样
从总体中抽样的两个样本集，每个样本集中的违约比率与初始总体不同。
————————————————
版权声明：本文为CSDN博主「心雨心辰」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/xidianliutingting/article/details/53260363