【问题标题】:Problems with creating a decision tree and splitting on an attribute?创建决策树和拆分属性有问题吗?
【发布时间】:2017-02-04 19:27:54
【问题描述】:

所以我试图拆分具有可能值(蓝色、绿色、红色、橙色、粉红色)的属性“颜色”。

我正在拆分 entropy 值,最佳拆分可以是 Multi-Way 5、Multi-Way 4、Multi-Way 3 或 Binary。例如:

5: (Blue, Green,Red,Orange,Pink)

4: (Blue, Green), (Red), (Orange), (Pink)
   (Green,Pink), (Blue),(Red),(Orange)

3: (Red,Orange), (Blue,Green), (Pink)
   (Red,Blue), (Green, Orange), (Pink)

2: (Blue,Green,Red), (Orange,Pink)
   (Pink), (Blue, Green, Red, Orange)

等等。但是我怎样才能列出所有可能的分裂呢?有没有我可以使用的特定算法?或者我怎么知道这个有多少最大可能的组合?

任何帮助将不胜感激,谢谢!!!

【问题讨论】:

    标签: machine-learning classification decision-tree supervised-learning


    【解决方案1】:

    根据熵(信息增益)的最佳分割将始终为 5。

    回想一下,当您根据某个属性进行拆分时,您会获得有关 Y 的信息,或者如果它们是独立的,则没有信息增益,即每次拆分时的信息增益都大于等于零。所以 IG(cases 2:4)

    对于拆分 >=0 时的 IG,请参阅:Can the value of information gain be negative?

    一般而言,在决策树/RF 中,您会尝试找到一个为属性提供最高 IG 的单个拆分,然后跨属性进行比较并选择一个。

    【讨论】:

      猜你喜欢
      • 2013-11-28
      • 2020-04-15
      • 2017-03-06
      • 2012-05-06
      • 2022-07-19
      • 2023-03-28
      • 2011-05-23
      • 1970-01-01
      • 2017-01-27
      相关资源
      最近更新 更多