思想:

选择合适的值做为阈值,实现最佳二分,遍历所有连续属性值后,计算所有已当前Gini()系数大小,选择最大的

例子,

来看看到底是怎样划分的。给定数据集如下(数据集来自周志华《机器学习》决策树——连续值处理

对于数据集中的属性“密度”,决策树开始学习时,根节点包含的17个训练样本在该属性上取值均不同。我们先把“密度”这些值从小到大排序:

决策树——连续值处理

根据上面计算决策树——连续值处理 的公式,可得:

决策树——连续值处理

下面开始计算取不同值时的信息增益:

决策树——连续值处理

相关文章:

  • 2022-01-06
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2021-12-30
  • 2022-12-23
  • 2021-08-20
  • 2021-07-20
猜你喜欢
  • 2022-01-08
  • 2021-10-27
  • 2021-06-19
  • 2021-08-19
  • 2021-11-26
相关资源
相似解决方案