【问题标题】:WEKA difference between output of J48 and ID3 algorithmJ48和ID3算法输出的WEKA区别
【发布时间】:2017-01-20 13:36:50
【问题描述】:

我有一个数据集,我使用J48ID3 算法在WEKA 中进行分类。 J48算法的输出为:

Correctly Classified Instances          73               92.4051 %

Incorrectly Classified Instances         6                7.5949 %

Kappa statistic                          0.8958

Mean absolute error                      0.061 

Root mean squared error                  0.1746

Relative absolute error                 16.7504 %

Root relative squared error             40.9571 %

Total Number of Instances               79     

使用 ID3 的输出是:

Correctly Classified Instances          79              100      %

Incorrectly Classified Instances         0                0      %

Kappa statistic                          1     

Mean absolute error                      0     

Root mean squared error                  0     

Relative absolute error                  0      %

Root relative squared error              0      %

Total Number of Instances               79 

我的问题是,如果J48ID3 的扩展并且比它更新,为什么ID3 的结果比J48 更好?

【问题讨论】:

  • 这对于 stats.stackexchange.com 来说是一个更好的问题。简而言之,模型在训练集上运行时的准确性并不能很好地衡量其实际质量。当对不在训练集中的数据运行时,J48 模型可能表现出更高的准确度。

标签: algorithm weka id3


【解决方案1】:

J48模型在过程质量上更加准确,基于C4.5是ID3的扩展,考虑了不可用值、连续属性值范围、决策树的剪枝、规则推导等上。 这种情况下的结果仅反映您使用的数据集的类型。当您需要更快/更简单的结果而不考虑 J48 中考虑的所有其他因素时,可以实施 ID3。查看修剪决策树和派生规则集HERE 在网络上有很多关于这些比较结果的主题资源,学习识别在哪种情况下我们应用不同的分类器更重要,一旦我们知道每个分类器是如何工作的(1)

【讨论】:

  • 那么,在某些情况下,让 id3 算法比 j48 更准确是不对的吧?
  • 不是更准确,它是一个“更简单”的结果(因为没有考虑 J48 中的上述所有点)。两者都没有错,您可以说 ID3 更像是对 DATA 的概括概述,而 J48 在分类相同 DATA 的方式上更加挑剔
【解决方案2】:

决策树更可能面临 数据过拟合 的问题,在您的情况下,ID3 算法面临数据过拟合的问题。这就是决策树的问题,它拆分数据直到形成纯集合。这个数据过拟合的问题在它的 J48 通过使用 Pruning 的扩展中得到了修复。

需要说明的另一点:您应该使用 K 折交叉验证 来验证您的模型。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2013-01-20
    • 2016-03-01
    • 2016-03-14
    • 2021-06-21
    • 2015-06-18
    • 2016-06-11
    • 2014-09-18
    相关资源
    最近更新 更多