特征选择，熵，条件熵，信息增益

特征选择
例子
熵
条件熵
信息增益

例子

特征选择

特征选择是在于选取能够提高分类器学习效率的特征。对于没有分类能力的特征，经验上扔掉这样的特征对最终的分类结果并没有什么大影响。
通常特征选择的准则是信息增益或信息增益比

例子

特征选择，熵，条件熵，信息增益
上表是有15个样本组成的贷款申请训练数据，数据包含贷款申请人的4个特征（年龄，是否有工作，是否有自己的房子，信贷情况），最后一列是类别。特征选择是决定用哪个特征来划分特征空间，选择哪个特征作为根节点，可能的情况：
特征选择，熵，条件熵，信息增益
直观上，如果一个特征具有更好的分类能力，或者说按照这一特征将训练数据集分割成子集，使得各个子集在当前条件下有最好的分类，那么就更应该选择这个特征，信息增益就能够很好的表示这一直观的准则。

熵

信息论中，熵表示信息的不确定性，设 $X$ 是一个取有限个值的离散随机变量，其概率分部是：
$P(X = x_i)=p_i,(i=1, 2, ...n)$
熵就是 $H(X)=-\sum_{i=1}^np_ilogp_i$
熵越大，随机变量的不确定性就越大，规定 $0log0=0$ 。 $H(X)$ 的取值范围是 $0\leqslant H(X)\leqslant logn$

条件熵

设有随机变量%(X, Y)%，其联合概率分部为：
$P(X=x_i,Y=y_j)=P_{ij}，(i=1,2,...,n，j=1,2,...,m)$
条件熵 $H(Y|X)$ 表示在已知随机变量 $X$ 的条件下随机变量 $Y$ 的不确定性:
$H(Y|X)=\sum_{i=1}^np_iH(Y|X=x_i)$
当熵和条件熵中的概率由数据统计得到时，所对应的熵与条件熵分别称之为经验熵和经验条件熵，此时，如果有0概率，令 $0log0=0$ 。

信息增益

信息增益表示得到特征X的信息而是的类Y的信息不确定性减少的程度。
特征A对训练数据集D的信息增益 $g(D,A)$ ，定义为集合D的经验熵 $H(D)$ 与特征A给定条件下D的经验条件熵 $H(D|A)$ 之差：
$g(D,A)=H(D)-H(D|A)$
熵与条件熵之差也叫互信息。决策树学习中的信息增益等价于训练数据集中类与特征的互信息。
根据信息增益准则的特征选这方法是：对训练数据（或子集）D，计算器每个特征的信息增益，并比较它们的大小，选择信息增益最大的特征。
特征选择，熵，条件熵，信息增益

例子

特征选择，熵，条件熵，信息增益