特征选择,熵,条件熵,信息增益

特征选择

特征选择是在于选取能够提高分类器学习效率的特征。对于没有分类能力的特征,经验上扔掉这样的特征对最终的分类结果并没有什么大影响。
通常特征选择的准则是信息增益或信息增益比

例子

特征选择,熵,条件熵,信息增益
上表是有15个样本组成的贷款申请训练数据,数据包含贷款申请人的4个特征(年龄,是否有工作, 是否有自己的房子,信贷情况),最后一列是类别。特征选择是决定用哪个特征来划分特征空间,选择哪个特征作为根节点,可能的情况:
特征选择,熵,条件熵,信息增益
直观上,如果一个特征具有更好的分类能力,或者说按照这一特征将训练数据集分割成子集,使得各个子集在当前条件下有最好的分类,那么就更应该选择这个特征,信息增益就能够很好的表示这一直观的准则。

信息论中,熵表示信息的不确定性,设XX是一个取有限个值的离散随机变量,其概率分部是:
P(X=xi)=pi,(i=1,2,...n)P(X = x_i)=p_i,(i=1, 2, ...n)
熵就是H(X)=i=1npilogpiH(X)=-\sum_{i=1}^np_ilogp_i
熵越大,随机变量的不确定性就越大,规定0log0=00log0=0H(X)H(X)的取值范围是0H(X)logn0\leqslant H(X)\leqslant logn

条件熵

设有随机变量%(X, Y)%,其联合概率分部为:
P(X=xi,Y=yj)=Pij(i=1,2,...,nj=1,2,...,m)P(X=x_i,Y=y_j)=P_{ij},(i=1,2,...,n,j=1,2,...,m)
条件熵H(YX)H(Y|X)表示在已知随机变量XX的条件下随机变量YY的不确定性:
H(YX)=i=1npiH(YX=xi)H(Y|X)=\sum_{i=1}^np_iH(Y|X=x_i)
当熵和条件熵中的概率由数据统计得到时,所对应的熵与条件熵分别称之为经验熵和经验条件熵,此时,如果有0概率,令0log0=00log0=0

信息增益

信息增益表示得到特征X的信息而是的类Y的信息不确定性减少的程度。
特征A对训练数据集D的信息增益g(D,A)g(D,A),定义为集合D的经验熵H(D)H(D)与特征A给定条件下D的经验条件熵H(DA)H(D|A)之差:
g(D,A)=H(D)H(DA)g(D,A)=H(D)-H(D|A)
熵与条件熵之差也叫互信息。决策树学习中的信息增益等价于训练数据集中类与特征的互信息。
根据信息增益准则的特征选这方法是:对训练数据(或子集)D,计算器每个特征的信息增益,并比较它们的大小,选择信息增益最大的特征。
特征选择,熵,条件熵,信息增益
特征选择,熵,条件熵,信息增益

例子

特征选择,熵,条件熵,信息增益
特征选择,熵,条件熵,信息增益

相关文章:

  • 2021-11-25
  • 2022-12-23
  • 2021-10-07
  • 2021-11-03
  • 2021-04-30
  • 2021-10-28
  • 2022-12-23
  • 2021-05-01
猜你喜欢
  • 2021-05-05
  • 2021-06-14
  • 2021-11-03
  • 2021-10-10
  • 2021-06-07
  • 2021-10-18
  • 2021-08-07
相关资源
相似解决方案