J48和ID3算法输出的WEKA区别答案

【问题标题】：WEKA difference between output of J48 and ID3 algorithmJ48和ID3算法输出的WEKA区别
【发布时间】：2017-01-20 13:36:50
【问题描述】：

我有一个数据集，我使用J48 和ID3 算法在WEKA 中进行分类。 J48算法的输出为：

Correctly Classified Instances          73               92.4051 %

Incorrectly Classified Instances         6                7.5949 %

Kappa statistic                          0.8958

Mean absolute error                      0.061 

Root mean squared error                  0.1746

Relative absolute error                 16.7504 %

Root relative squared error             40.9571 %

Total Number of Instances               79

使用 ID3 的输出是：

Correctly Classified Instances          79              100      %

Incorrectly Classified Instances         0                0      %

Kappa statistic                          1     

Mean absolute error                      0     

Root mean squared error                  0     

Relative absolute error                  0      %

Root relative squared error              0      %

Total Number of Instances               79

我的问题是，如果J48 是ID3 的扩展并且比它更新，为什么ID3 的结果比J48 更好？

【问题讨论】：

这对于 stats.stackexchange.com 来说是一个更好的问题。简而言之，模型在训练集上运行时的准确性并不能很好地衡量其实际质量。当对不在训练集中的数据运行时，J48 模型可能表现出更高的准确度。

标签： algorithm weka id3

【解决方案1】：

J48模型在过程质量上更加准确，基于C4.5是ID3的扩展，考虑了不可用值、连续属性值范围、决策树的剪枝、规则推导等上。 这种情况下的结果仅反映您使用的数据集的类型。当您需要更快/更简单的结果而不考虑 J48 中考虑的所有其他因素时，可以实施 ID3。查看修剪决策树和派生规则集HERE 在网络上有很多关于这些比较结果的主题资源，学习识别在哪种情况下我们应用不同的分类器更重要，一旦我们知道每个分类器是如何工作的(1)

【讨论】：

那么，在某些情况下，让 id3 算法比 j48 更准确是不对的吧？
不是更准确，它是一个“更简单”的结果（因为没有考虑 J48 中的上述所有点）。两者都没有错，您可以说 ID3 更像是对 DATA 的概括概述，而 J48 在分类相同 DATA 的方式上更加挑剔

【解决方案2】：

决策树更可能面临 数据过拟合 的问题，在您的情况下，ID3 算法面临数据过拟合的问题。这就是决策树的问题，它拆分数据直到形成纯集合。这个数据过拟合的问题在它的 J48 通过使用 Pruning 的扩展中得到了修复。

需要说明的另一点：您应该使用 K 折交叉验证 来验证您的模型。

【讨论】：