特征选择
特征选择是在于选取能够提高分类器学习效率的特征。对于没有分类能力的特征,经验上扔掉这样的特征对最终的分类结果并没有什么大影响。
通常特征选择的准则是信息增益或信息增益比
例子
上表是有15个样本组成的贷款申请训练数据,数据包含贷款申请人的4个特征(年龄,是否有工作, 是否有自己的房子,信贷情况),最后一列是类别。特征选择是决定用哪个特征来划分特征空间,选择哪个特征作为根节点,可能的情况:
直观上,如果一个特征具有更好的分类能力,或者说按照这一特征将训练数据集分割成子集,使得各个子集在当前条件下有最好的分类,那么就更应该选择这个特征,信息增益就能够很好的表示这一直观的准则。
熵
信息论中,熵表示信息的不确定性,设是一个取有限个值的离散随机变量,其概率分部是:
熵就是
熵越大,随机变量的不确定性就越大,规定。的取值范围是
条件熵
设有随机变量%(X, Y)%,其联合概率分部为:
条件熵表示在已知随机变量的条件下随机变量的不确定性:
当熵和条件熵中的概率由数据统计得到时,所对应的熵与条件熵分别称之为经验熵和经验条件熵,此时,如果有0概率,令。
信息增益
信息增益表示得到特征X的信息而是的类Y的信息不确定性减少的程度。
特征A对训练数据集D的信息增益,定义为集合D的经验熵与特征A给定条件下D的经验条件熵之差:
熵与条件熵之差也叫互信息。决策树学习中的信息增益等价于训练数据集中类与特征的互信息。
根据信息增益准则的特征选这方法是:对训练数据(或子集)D,计算器每个特征的信息增益,并比较它们的大小,选择信息增益最大的特征。