Weka 决策树答案

【问题标题】：Weka Decision TreeWeka 决策树
【发布时间】：2015-02-06 13:43:37
【问题描述】：

我正在尝试使用 weka 来分析一些数据。我有一个包含 3 个变量和 1000 多个实例的数据集。

数据集参考电影翻拍和

它们有多相似 (0.0-1.0)
电影和翻拍之间的年份差异
最后，如果它们是由同一工作室制作的（是或否）

我正在尝试制作决策树来分析数据。使用 J48（因为这是我用过的全部）我只得到一片叶子。我假设我做错了什么。任何帮助表示赞赏。

这是数据集中的一个sn-p：

Similarity  YearDifference  STUDIO TYPE
    0.5         36              No
    0.5         9               No
    0.85        18              No
    0.4         10              No
    0.5         15              No
    0.7         6               No
    0.8         11              No
    0.8         0               Yes
    ...

如果有兴趣，可以在这里http://s000.tinyupload.com/?file_id=77863432352576044943以csv格式下载数据

【问题讨论】：

始终在您的帖子中包含所有相关信息，您链接到的网站可能会关闭或不可用，未来的访问者将不知道您的意思。话虽这么说：你是如何训练 J48 的？命令行还是 Java 代码？您使用了哪些选项？你怎么知道只有一片叶子？帮助我们帮助您；）
很抱歉。我会确保像您为以后的帖子所做的那样包含一个 sn-p。我不确定你训练 j48 到底是什么意思。在 weka 中，我被教导要做的就是将分类应用于数据集。我知道它只有一片叶子，因为当我可视化这棵树时，它只显示了一片叶子，并且在分析中它只显示了一片叶子。希望有帮助！

标签： csv tree dataset weka

【解决方案1】：

您的数据集不平衡，因为类属性的“否”比“是”多近 5 倍。这就是为什么 J48 是树，它实际上只是一片叶子，将所有事物归类为“否”。您可以执行以下操作之一：

对你的数据集进行抽样，这样你就有相等数量的 No 和 Yes
尝试使用更好的分类算法，例如随机森林（位于 Weka explorer GUI 中 J48 下方的几个空格处）

【讨论】：

决策树应该仍然能够分离这两个类，即使它们的比例是 1:5。除非这是由于修剪，但我们必须看到实际的树才能分辨。
谢谢，我不知道分类器到底是做什么的，j48 只是我们在课堂上经常使用的那个。我会尝试随机森林。