1 定义

每日一个机器学习算法——信息熵

2 直观解释

信息熵用来衡量信息量的大小

若不确定性越大,则信息量越大,熵越大

若不确定性越小,则信息量越小,熵越小

比如A班对B班,胜率一个为x,另一个为1-x

则信息熵为 -(xlogx + (1-x)log(1-x))

求导后容易证明x=1/2时取得最大,最大值为2

也就是说两者势均力敌时,不确定性最大,熵最大。

3 应用

数据挖掘中的决策树。

构建决策树的过程,就是减小信息熵,减小不确定性。从而完整构造决策树模型。

所以我们需要在每一次选择分支属性时,计算这样分类所带来的信息熵的增益,增益越大,不确定性越小,最终也就是我们要选择的分支属性。

首先我们会在未进行任何分类前求取一个信息熵,这个信息熵涉及到只是简单的求取样本标签的分布,然后按照公式求解信息熵。

之后在选用某一个属性作为分支属性后,我们需要计算每一个子分支中的样本标签的分布,然后计算每个子样本的信息熵,最后加权平均(期望),求得总的信息熵。

计算前后两个信息熵的差值,选择最大的增益属性作为分支属性。

一直递归下去,对每一个子样本套用上述方法。直到所有的样本都被归类于某个叶节点,即不可再分为止。

以上方法是ID3方法,还有更好的C4.5方法

C4.5方法选用信息增益比,克服了ID3使用信息增益选择属性时偏向取值较多的属性的不足。

除了可以处理离散类型的属性,还可以处理连续型。

处理连续型属性时,最重要的一步确定分割点。这里同样需要用到信息增益比。

我们可以人工的为选择一系列的分割点,然后分别计算被分割点分割的前后两个区间的信息熵,最后加权求得该分割点情况下的信息熵。

最后取信息增益最大的分割点作为分割条件。

简而言之,和ID3相比,就是在计算分割点的时候,需要额外用到一次信息增益法。

 

相关文章:

  • 2021-11-03
  • 2021-04-04
  • 2021-07-07
  • 2021-05-15
  • 2022-12-23
  • 2022-03-09
  • 2021-08-31
  • 2021-12-17
猜你喜欢
  • 2022-02-24
  • 2021-05-22
  • 2021-11-08
  • 2021-10-06
  • 2022-12-23
  • 2022-01-11
相关资源
相似解决方案