分箱逻辑:

1.类别型特征:

  • 1)类别数在5个以下,可以直接根据类别来分箱 (binning_cate)
  • 2)类别数在5个以上,建议做降基处理,再根据降基后的类别做分箱

2.数值型特征:

  • 1)离散型数值特征(特征value的变动幅度较小):
    若特征value的非重复计数在5个以下,可以直接根据非重复计数值来分箱(binning_cate)
    若特征value的非重复计数在5个以上,建议根据业务解释或者数据分布做自定义分箱(binning_self)
  • 2)连续型数值特征(特征value的变动幅度较大):
    可以用卡方分箱或自定义分箱。(binning_num,binning_self)
    PS:一些特征用卡方分可能会报错,建议这些特征改为手动自定义分箱

3.缺失型特征:

  • 1)缺失率在5%以下,可以先对缺失做填充处理再分箱(binning_num)
  • 2)缺失率在5%以上,建议将缺失当作一个类别来分箱(binning_sparse_col)

4.稀疏型特征分箱

  • 建议将稀疏值(一般为0)单独分为一箱,剩下的值做卡方或者自定义分箱(binning_sparse_col)

离散的优势:

  • (1)离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大的干扰;
  • (2)逻辑回归属于广义线性模型,表达能力受限,单变量离散化为N个后,每个变量有单独的权重,相当于为模型引入了非线性,能够提升模型表达能力,加大拟合;
  • (3)离散化后可以进行特征交叉,由M+N个变量变为M*N个变量,进一步引入非线性,提升表达能力;
  • (4)可以将缺失作为独立的一类带入模型;
  • (5)将所有变量变换到相似的尺度上。

分箱方法

        关于变量分箱主要分为两大类:有监督型和无监督型

  • 无监督:(1) 等宽 (2) 等频 (3) 聚类
  • 有监督:(1)卡方分箱法(ChiMerge) (2) ID3、C4.5、CART等单变量决策树算法 (3) 信用评分建模的IV最大化分箱 等
            
            
            

列举几个分箱类型

1.等频分箱(pd.qcut
        区间的边界值要经过选择,使得每个区间包含大致相等的实例数量。比如说 N=10 ,每个区间应该包含大约10%的实例。
2.等距分箱(pd.cut
        从最小值到最大值之间,均分为 N 等份。 如果 A,B 为最小最大值, 则每个区间的长度为 W=(B−A)/N , 则区间边界值为A+W,A+2W,….A+(N−1)W 。这里只考虑边界,每个等份的实例数量可能不等。
3.卡方分箱
分箱计数--减少数据稀疏度

什么是卡方检验?

        卡方检验是统计学中经常用到的一种假设检验。用我的理解总结起来,卡方检验就是对分类数据的频数进行分析的一种方法,它的应用主要表现在两个方面:拟合优度检验和独立性检验(列联分析)。

  • 拟合优度
    拟合优度是对一个分类变量的检验,即根据总体分布状况,计算出分类变量中各类别的期望频数,与分布的观察频数进行对比,判断期望频数与观察频数是否有显著差异,从而达到对分类变量进行分析的目的。比如,泰坦尼克号中我们观察幸存者是否与性别有关,可以理解为一个X是否与Y有必然联系。
  • 独立性检验
    独立性检验是两个特征变量之间的计算,它可以用来分析两个分类变量是否独立,或者是否有关联。比如某原料质量和产地是否依赖关系,可以理解为一个X与另一个X是否独立。
什么是卡方分箱?

        分箱的方法有很多,卡方分箱属于其中一种,属于有监督系列的。卡方分箱正是一种基于卡方检验的分箱方法,更具地说是基于上面提到的第二种应用,独立性检验,来实现核心分箱功能的。
        卡方分箱算法简单来说,有两个部分组成:1)初始化步骤;2)合并。
        小栗子:

  • 计算所有相邻分箱的卡方值:也就是说如果有1,2,3,4个分箱,那么就需要绑定相邻的两个分箱,共三组:12,23,34。然后分别计算三个绑定组的卡方值。
  • 从计算的卡方值中找出最小的一个,并把这两个分箱合并:比如,23是卡方值最小的一个,那么就将2和3合并,本轮计算中分箱就变为了1,23,4。
            背后的基本思想是:如果两个相邻的区间具有非常类似的类分布,那么这两个区间可以合并。否则,它们应该分开。低卡方值表明它们具有相似的类分布。
            停止条件:1)卡方停止的阈值 ,2)分箱数目的限制
            卡方分箱公式理解:
    分箱计数--减少数据稀疏度
  • m=2:表示相邻的两个分箱数目
  • k:表示目标变量的类别数,比如目标是网贷违约的好和坏,那么k=2。k也可以是多类,大于2。
  • Aij:实际频数,即第i个分箱的j类频数
  • Eij:期望频数
    其中,期望频数的公式如下,可根据P(AB)=P(A)P(B)推导出来:
    分箱计数--减少数据稀疏度
  • Ri&Cj:分别是实际频数整列和整行的加和
    举个例子说明一下这个公式是如何用的,对于相邻两个分箱的卡方值计算:
    分箱计数--减少数据稀疏度
    实际频数和期望频数都有了,带入卡方公式求解,过程如下:
    分箱计数--减少数据稀疏度
    如果计算结果是所有卡方值中最小的,说明:这组中两个分箱具有最相似的类分布,因此把它们合并。

WOE/IE值计算

1.证据权重(Weight of Evidence)
        WOE的全称是“Weight of Evidence”,即证据权重。WOE是对原始自变量的一种编码形式。
        要对一个变量进行WOE编码,需要首先把这个变量进行分组处理(也叫离散化、分箱等等,说的都是一个意思)。分组后,对于第i组,WOE的计算公式如下:
分箱计数--减少数据稀疏度
        其中,pyi是这个组中响应客户(风险模型中,对应的是违约客户,总之,指的是模型中预测变量取值为“是”或者说1的个体)占所有样本中所有响应客户的比例,pni是这个组中未响应客户占样本中所有未响应客户的比例,#yi是这个组中响应客户的数量,#ni是这个组中未响应客户的数量,#yT是样本中所有响应客户的数量,#nT是样本中所有未响应客户的数量。
        从这个公式中我们可以体会到,WOE表示的实际上是“当前分组中响应客户占所有响应客户的比例”和“当前分组中没有响应的客户占所有没有响应的客户的比例”的差异。
        对这个公式做一个简单变换,可以得到:
分箱计数--减少数据稀疏度
        变换以后我们可以看出,WOE也可以这么理解,他表示的是当前这个组中响应的客户和未响应客户的比值,和所有样本中这个比值的差异。这个差异是用这两个比值的比值,再取对数来表示的。WOE越大,这种差异越大,这个分组里的样本响应的可能性就越大,WOE越小,差异越小,这个分组里的样本响应的可能性就越小。
        
2.信息值(Information Value)
        我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表。那么我们怎么去挑选入模变量呢?
        挑选入模变量过程是个比较复杂的过程,需要考虑的因素很多,比如:变量的预测能力,变量之间的相关性,变量的简单性(容易生成和使用),变量的强壮性(不容易被绕过),变量在业务上的可解释性(被挑战时可以解释的通)等等。但是,其中最主要和最直接的衡量标准是变量的预测能力。
        “变量的预测能力”这个说法很笼统,很主观,非量化,在筛选变量的时候我们总不能说:“我觉得这个变量预测能力很强,所以他要进入模型”吧?我们需要一些具体的量化指标来衡量每自变量的预测能力,并根据这些量化指标的大小,来确定哪些变量进入模型。IV就是这样一种指标,他可以用来衡量自变量的预测能力。类似的指标还有信息增益、基尼系数等等。
        从直观逻辑上大体可以这样理解“用IV去衡量变量预测能力”这件事情:我们假设在一个分类问题中,目标变量的类别有两类:Y1,Y2。对于一个待预测的个体A,要判断A属于Y1还是Y2,我们是需要一定的信息的,假设这个信息总量是I,而这些所需要的信息,就蕴含在所有的自变量C1,C2,C3,……,Cn中,那么,对于其中的一个变量Ci来说,其蕴含的信息越多,那么它对于判断A属于Y1还是Y2的贡献就越大,Ci的信息价值就越大,Ci的IV就越大,它就越应该进入到入模变量列表中。
        正式给出IV的计算公式。对于一个分组后的变量,第i 组的WOE前面已经介绍过,是这样计算的:
分箱计数--减少数据稀疏度
        同样,对于分组i,也会有一个对应的IV值,计算公式如下:
分箱计数--减少数据稀疏度
        有了一个变量各分组的IV值,我们就可以计算整个变量的IV值,方法很简单,就是把各分组的IV相加:
分箱计数--减少数据稀疏度

  • n为变量分组个数。
            
            
            

参考链接I
参考链接 II
卡方分箱参考github链接
从论文分析,告诉你什么叫 “卡方分箱”?
参考链接III

相关文章: