【发布时间】:2012-10-24 20:21:58
【问题描述】:
ID3 算法使用“信息增益”度量。
C4.5 使用“增益比”度量,即信息增益除以 SplitInfo,而 SplitInfo 对于记录在不同结果之间平均分配的拆分较高,否则较低。
我的问题是:
这如何帮助解决信息增益偏向于具有许多结果的分裂的问题?我看不出原因。 SplitInfo 甚至不考虑结果的数量,只考虑拆分中记录的分布。
很可能是结果数量很少(比如 2 个),并且记录在这 2 个结果之间平均分配。在这种情况下,SplitInfo 较高,增益率较低,C4.5 不太可能选择结果较少的拆分。
另一方面,可能结果数量很少,但分布很不均匀。在这种情况下,SplitInfo 较低,增益率较高,并且更有可能选择具有多种结果的拆分。
我错过了什么?
【问题讨论】:
-
这个问题可能更适合programmers.stackexchange.com。
-
@JoachimPileborg 不,这是一个理论问题。但它可能更适合 stats.stackexchange.com。
标签: math statistics computer-science data-mining classification