【问题标题】:What does the minNumObj parameter do in J48 classifier? WEKAJ48 分类器中的 minNumObj 参数有什么作用?威卡
【发布时间】:2014-03-12 19:10:29
【问题描述】:

根据 Weka 中的注释,它说 minNumObj 控制每个叶子的最小实例数。但是,使用 minNumObj=3 的值,Weka 会生成树

Scheme:weka.classifiers.trees.J48 -U -M 3

=== Classifier model (full training set) ===

J48 unpruned tree
------------------

pension = none: bad (8.0)
pension = ret_allw: bad (3.0/1.0)
pension = empl_contr
|   wage increase first year = low: bad (3.0)
|   wage increase first year = medium: good (3.0)
|   wage increase first year = high: good (0.0)
|   wage increase first year = unknown: good (1.0)
pension = unknown
|   longterm disability assistance = yes: good (4.0)
|   longterm disability assistance = no: bad (1.0)
|   longterm disability assistance = unknown: good (17.0)

Number of Leaves  :     9

Size of the tree :  12

它有几片叶子,只有 1 个实例。鉴于 minNumObj 为 3,这怎么可能发生?这个设置实际控制的是什么?

感谢您的帮助!

【问题讨论】:

    标签: testing weka


    【解决方案1】:

    我的理解是,每个叶子的最小实例数保证在每次拆分时,至少 2 个分支(但不一定超过 2 个)将具有最少实例数。

    这是一个明智的设计。考虑一个极端情况,每个节点最多有 10 个不同的分支。这将要求父节点至少有 10 倍于每个叶子分支的最小实例数!鉴于数据可能在分支之间分布高度不均匀,我们可能更多地查看大约 50 次。

    另一种看待它的方式是,分支是一种分离数据的方式。从 100 个实例中分离一个实例不会给您太多信息,因此您需要设置最小分离量。但是,如果您有一个具有四个分支的节点,其中两个以 0 个实例结束,另外两个以每个 50 个实例结束,则分支仍然会产生信息。

    所以一句话,在多路树的情况下,每个叶子的最小实例数最好被认为是“每个分支的最小数据分离量”。

    【讨论】:

      猜你喜欢
      • 2016-06-11
      • 2015-10-21
      • 2019-11-08
      • 2018-04-04
      • 2011-12-17
      • 1970-01-01
      • 2015-10-21
      • 2011-02-23
      相关资源
      最近更新 更多