【发布时间】:2016-03-01 19:52:28
【问题描述】:
我正在使用 10 折交叉验证技术来训练 20 万条记录。目标类索引是这样的
状态 {PASS,FAIL}
通过的实例约为 144K,失败的实例约为 6K。
在使用 J48 训练模型时。它无法找到故障。准确率是 95%,但大多数情况下它的预测只是成功。在我们的例子中,我们需要找到实际发生的故障。
所以我的问题主要是假设分析。
训练期间类实例之间的分布真的很重要吗(在我的例子中是通过,失败)。
weka J48 树中的哪些可能值可以更好地训练,因为我看到每通过 1000 条记录中有 2% 的失败。因此,如果我们增加成功场景,成功率就会增加。
他们之间的比例应该是多少才能更好地训练他们。
就比率而言,我在 API 中找不到任何东西。
我没有添加代码,因为 Java API 和使用 weka GUI 工具都会发生这种情况。
非常感谢。
【问题讨论】: