分箱计数--减少数据稀疏度

分箱逻辑：

1.类别型特征：

1）类别数在5个以下，可以直接根据类别来分箱 (binning_cate)
2）类别数在5个以上，建议做降基处理，再根据降基后的类别做分箱

2.数值型特征：

1）离散型数值特征（特征value的变动幅度较小）：
若特征value的非重复计数在5个以下，可以直接根据非重复计数值来分箱(binning_cate)
若特征value的非重复计数在5个以上，建议根据业务解释或者数据分布做自定义分箱(binning_self)
2）连续型数值特征（特征value的变动幅度较大）：
可以用卡方分箱或自定义分箱。(binning_num,binning_self)
PS:一些特征用卡方分可能会报错，建议这些特征改为手动自定义分箱

3.缺失型特征：

1）缺失率在5%以下，可以先对缺失做填充处理再分箱(binning_num)
2）缺失率在5%以上，建议将缺失当作一个类别来分箱(binning_sparse_col)

4.稀疏型特征分箱

建议将稀疏值（一般为0）单独分为一箱，剩下的值做卡方或者自定义分箱(binning_sparse_col)

离散的优势：

（1）离散化后的特征对异常数据有很强的鲁棒性：比如一个特征是年龄>30是1，否则0。如果特征没有离散化，一个异常数据“年龄300岁”会给模型造成很大的干扰；
（2）逻辑回归属于广义线性模型，表达能力受限，单变量离散化为N个后，每个变量有单独的权重，相当于为模型引入了非线性，能够提升模型表达能力，加大拟合；
（3）离散化后可以进行特征交叉，由M+N个变量变为M*N个变量，进一步引入非线性，提升表达能力；
（4）可以将缺失作为独立的一类带入模型；
（5）将所有变量变换到相似的尺度上。

分箱方法

关于变量分箱主要分为两大类：有监督型和无监督型

无监督：(1) 等宽 (2) 等频 (3) 聚类
有监督：(1)卡方分箱法(ChiMerge) (2) ID3、C4.5、CART等单变量决策树算法 (3) 信用评分建模的IV最大化分箱等

列举几个分箱类型

1.等频分箱（pd.qcut）
区间的边界值要经过选择,使得每个区间包含大致相等的实例数量。比如说 N=10 ,每个区间应该包含大约10%的实例。
2.等距分箱（pd.cut）
从最小值到最大值之间,均分为 N 等份。如果 A,B 为最小最大值, 则每个区间的长度为 W=(B−A)/N , 则区间边界值为A+W,A+2W,….A+(N−1)W 。这里只考虑边界，每个等份的实例数量可能不等。
3.卡方分箱
分箱计数--减少数据稀疏度

什么是卡方检验？

卡方检验是统计学中经常用到的一种假设检验。用我的理解总结起来，卡方检验就是对分类数据的频数进行分析的一种方法，它的应用主要表现在两个方面：拟合优度检验和独立性检验（列联分析）。

拟合优度
拟合优度是对一个分类变量的检验，即根据总体分布状况，计算出分类变量中各类别的期望频数，与分布的观察频数进行对比，判断期望频数与观察频数是否有显著差异，从而达到对分类变量进行分析的目的。比如，泰坦尼克号中我们观察幸存者是否与性别有关，可以理解为一个X是否与Y有必然联系。
独立性检验
独立性检验是两个特征变量之间的计算，它可以用来分析两个分类变量是否独立，或者是否有关联。比如某原料质量和产地是否依赖关系，可以理解为一个X与另一个X是否独立。

什么是卡方分箱？

        分箱的方法有很多，卡方分箱属于其中一种，属于有监督系列的。卡方分箱正是一种基于卡方检验的分箱方法，更具地说是基于上面提到的第二种应用，独立性检验，来实现核心分箱功能的。
        卡方分箱算法简单来说，有两个部分组成：1）初始化步骤；2）合并。
        小栗子：

计算所有相邻分箱的卡方值：也就是说如果有1,2,3,4个分箱，那么就需要绑定相邻的两个分箱，共三组：12,23,34。然后分别计算三个绑定组的卡方值。
从计算的卡方值中找出最小的一个，并把这两个分箱合并：比如，23是卡方值最小的一个，那么就将2和3合并，本轮计算中分箱就变为了1,23,4。
        背后的基本思想是：如果两个相邻的区间具有非常类似的类分布，那么这两个区间可以合并。否则，它们应该分开。低卡方值表明它们具有相似的类分布。
        停止条件：1）卡方停止的阈值，2）分箱数目的限制
        卡方分箱公式理解：
m=2：表示相邻的两个分箱数目
k：表示目标变量的类别数，比如目标是网贷违约的好和坏，那么k=2。k也可以是多类，大于2。
Aij：实际频数，即第i个分箱的j类频数
Eij：期望频数
其中，期望频数的公式如下，可根据P(AB)=P(A)P(B)推导出来：
Ri&Cj：分别是实际频数整列和整行的加和
举个例子说明一下这个公式是如何用的，对于相邻两个分箱的卡方值计算：

实际频数和期望频数都有了，带入卡方公式求解，过程如下：

如果计算结果是所有卡方值中最小的，说明：这组中两个分箱具有最相似的类分布，因此把它们合并。

WOE/IE值计算

1.证据权重（Weight of Evidence）
        WOE的全称是“Weight of Evidence”，即证据权重。WOE是对原始自变量的一种编码形式。
        要对一个变量进行WOE编码，需要首先把这个变量进行分组处理（也叫离散化、分箱等等，说的都是一个意思）。分组后，对于第i组，WOE的计算公式如下：
分箱计数--减少数据稀疏度
        其中，pyi是这个组中响应客户（风险模型中，对应的是违约客户，总之，指的是模型中预测变量取值为“是”或者说1的个体）占所有样本中所有响应客户的比例，pni是这个组中未响应客户占样本中所有未响应客户的比例，#yi是这个组中响应客户的数量，#ni是这个组中未响应客户的数量，#yT是样本中所有响应客户的数量，#nT是样本中所有未响应客户的数量。
        从这个公式中我们可以体会到，WOE表示的实际上是“当前分组中响应客户占所有响应客户的比例”和“当前分组中没有响应的客户占所有没有响应的客户的比例”的差异。
        对这个公式做一个简单变换，可以得到：
分箱计数--减少数据稀疏度
        变换以后我们可以看出，WOE也可以这么理解，他表示的是当前这个组中响应的客户和未响应客户的比值，和所有样本中这个比值的差异。这个差异是用这两个比值的比值，再取对数来表示的。WOE越大，这种差异越大，这个分组里的样本响应的可能性就越大，WOE越小，差异越小，这个分组里的样本响应的可能性就越小。

2.信息值（Information Value）
        我们在用逻辑回归、决策树等模型方法构建分类模型时，经常需要对自变量进行筛选。比如我们有200个候选自变量，通常情况下，不会直接把200个变量直接放到模型中去进行拟合训练，而是会用一些方法，从这200个自变量中挑选一些出来，放进模型，形成入模变量列表。那么我们怎么去挑选入模变量呢？
        挑选入模变量过程是个比较复杂的过程，需要考虑的因素很多，比如：变量的预测能力，变量之间的相关性，变量的简单性（容易生成和使用），变量的强壮性（不容易被绕过），变量在业务上的可解释性（被挑战时可以解释的通）等等。但是，其中最主要和最直接的衡量标准是变量的预测能力。
        “变量的预测能力”这个说法很笼统，很主观，非量化，在筛选变量的时候我们总不能说：“我觉得这个变量预测能力很强，所以他要进入模型”吧？我们需要一些具体的量化指标来衡量每自变量的预测能力，并根据这些量化指标的大小，来确定哪些变量进入模型。IV就是这样一种指标，他可以用来衡量自变量的预测能力。类似的指标还有信息增益、基尼系数等等。
        从直观逻辑上大体可以这样理解“用IV去衡量变量预测能力”这件事情：我们假设在一个分类问题中，目标变量的类别有两类：Y1，Y2。对于一个待预测的个体A，要判断A属于Y1还是Y2，我们是需要一定的信息的，假设这个信息总量是I，而这些所需要的信息，就蕴含在所有的自变量C1，C2，C3，……，Cn中，那么，对于其中的一个变量Ci来说，其蕴含的信息越多，那么它对于判断A属于Y1还是Y2的贡献就越大，Ci的信息价值就越大，Ci的IV就越大，它就越应该进入到入模变量列表中。
        正式给出IV的计算公式。对于一个分组后的变量，第i 组的WOE前面已经介绍过，是这样计算的：
分箱计数--减少数据稀疏度
        同样，对于分组i，也会有一个对应的IV值，计算公式如下：

        有了一个变量各分组的IV值，我们就可以计算整个变量的IV值，方法很简单，就是把各分组的IV相加：

n为变量分组个数。

参考链接I
参考链接 II
卡方分箱参考github链接
 从论文分析，告诉你什么叫 “卡方分箱”？
参考链接III