【发布时间】:2013-12-05 10:55:27
【问题描述】:
我有一个非常随机的群体,我正在尝试使用二叉决策树进行拆分。
Population probability
TRUE 51%
FALSE 49%
所以熵为 1(四舍五入为 3)。因此对于任何特征,熵也将为 1(相同),因此没有信息增益。
我这样做对吗?在我学习它的过程中,我没有遇到任何说熵对 2 个类没有用的东西
【问题讨论】:
我有一个非常随机的群体,我正在尝试使用二叉决策树进行拆分。
Population probability
TRUE 51%
FALSE 49%
所以熵为 1(四舍五入为 3)。因此对于任何特征,熵也将为 1(相同),因此没有信息增益。
我这样做对吗?在我学习它的过程中,我没有遇到任何说熵对 2 个类没有用的东西
【问题讨论】:
熵/信息增益不太取决于类的分布,而是取决于用于表征数据集中实例的特征中包含的信息。例如,如果您有一个特征对于 TRUE 类始终为 1,对于 FALSE 类始终为 2,那么它将具有最高的信息增益,因为它允许您完美地分离这两个类。
如果您获得的信息增益非常小,则表明特征中包含的信息对于分离您的类没有用处。在这种情况下,您需要找到更多信息特征。
【讨论】: