【问题标题】:Weka Decision TreeWeka 决策树
【发布时间】:2015-02-06 13:43:37
【问题描述】:

我正在尝试使用 weka 来分析一些数据。我有一个包含 3 个变量和 1000 多个实例的数据集。

数据集参考电影翻拍和

  • 它们有多相似 (0.0-1.0)
  • 电影和翻拍之间的年份差异
  • 最后,如果它们是由同一工作室制作的(是或否)

我正在尝试制作决策树来分析数据。使用 J48(因为这是我用过的全部)我只得到一片叶子。我假设我做错了什么。任何帮助表示赞赏。

这是数据集中的一个sn-p:

Similarity  YearDifference  STUDIO TYPE
    0.5         36              No
    0.5         9               No
    0.85        18              No
    0.4         10              No
    0.5         15              No
    0.7         6               No
    0.8         11              No
    0.8         0               Yes
    ...

如果有兴趣,可以在这里http://s000.tinyupload.com/?file_id=77863432352576044943以csv格式下载数据

【问题讨论】:

  • 始终在您的帖子中包含所有相关信息,您链接到的网站可能会关闭或不可用,未来的访问者将不知道您的意思。话虽这么说:你是如何训练 J48 的?命令行还是 Java 代码?您使用了哪些选项?你怎么知道只有一片叶子?帮助我们帮助您;)
  • 很抱歉。我会确保像您为以后的帖子所做的那样包含一个 sn-p。我不确定你训练 j48 到底是什么意思。在 weka 中,我被教导要做的就是将分类应用于数据集。我知道它只有一片叶子,因为当我可视化这棵树时,它只显示了一片叶子,并且在分析中它只显示了一片叶子。希望有帮助!

标签: csv tree dataset weka


【解决方案1】:

您的数据集不平衡,因为类属性的“否”比“是”多近 5 倍。这就是为什么 J48 是树,它实际上只是一片叶子,将所有事物归类为“否”。您可以执行以下操作之一:

  1. 对你的数据集进行抽样,这样你就有相等数量的 No 和 Yes
  2. 尝试使用更好的分类算法,例如随机森林(位于 Weka explorer GUI 中 J48 下方的几个空格处​​)

【讨论】:

  • 决策树应该仍然能够分离这两个类,即使它们的比例是 1:5。除非这是由于修剪,但我们必须看到实际的树才能分辨。
  • 谢谢,我不知道分类器到底是做什么的,j48 只是我们在课堂上经常使用的那个。我会尝试随机森林。
猜你喜欢
  • 2014-11-23
  • 2014-11-25
  • 2021-05-16
  • 2020-08-25
  • 2014-12-29
  • 2017-01-25
  • 2021-12-10
  • 2016-09-02
  • 2013-05-30
相关资源
最近更新 更多