【发布时间】:2014-12-11 02:31:32
【问题描述】:
我有一个包含两个类的数据集,并试图使用 Weka 获得最佳分类器。我能获得的最佳分类器的准确率约为 79%。然后我尝试通过对数据进行分类并将此分类生成的概率分布保存在数据本身中来为我的数据添加属性。 当我对修改后的数据重新运行训练过程时,我得到了超过 93% 的准确率!!我确定这是错误的,但我不知道为什么。 这些是我经历的确切步骤:
- 在 Weka 中打开数据。
- 点击添加过滤器并从
Supervised->attribute中选择AddClassification。 - 选择一个分类器。我使用默认设置选择
J48。 - 将“输出分类”设置为 false,并将
Output Distribution设置为 true。 - 运行过滤器并将类恢复为您原来的名义类。请注意添加到属性列表末尾的附加属性。它们将具有以下名称:
distribution_yourFirstClassName和distribution_yourSecondClassName。 - 转到分类选项卡并选择一个分类器:我再次选择了
J48。 - 运行它。在这一步中,我发现比以前更加准确。
这是创建分类器的有效方法吗?我不是通过在原始数据中添加分类信息来“作弊”吗?如果它是有效的,人们将如何继续创建一个可以预测未标记数据的分类器?它如何添加附加属性(分布)?
我确实尝试使用FilteredClassifier 重现相同的效果,但没有成功。
谢谢。
【问题讨论】:
标签: machine-learning classification weka