【发布时间】:2012-05-05 14:09:06
【问题描述】:
我是随机森林分类器的新手。我正在使用它对具有两个类的数据集进行分类。 - 特征数为 512。 - 数据比例为1:4。即,75% 的数据来自第一类,25% 来自第二类。 - 我正在使用 500 棵树。
分类器产生 21.52% 的袋外错误。 第一类(由 75% 的训练数据表示)的每类误差为 0.0059。而第二类的分类误差非常高:0.965。
我正在寻找对此行为的解释,如果您有提高第二类准确性的建议。
期待您的帮助。
谢谢
忘了说我使用的是 R 并且在上面的测试中我使用了 1000 的节点大小。
这里我只用 10 棵树和 nodesize= 1 重复了训练(只是为了给出一个想法),下面是 R 中的函数调用和混淆矩阵:
- randomForest(formula = Label ~ ., data = chData30PixG12, ntree = 10,importance = TRUE, nodesize = 1, keep.forest = FALSE, do.trace = 50)
随机森林类型:分类
树数:10
没有。每次拆分尝试的变量数:22
OOB 估计错误率:24.46%
混淆矩阵:
不相关、相关、类错误
- 无关的 37954 , 4510 , 0.1062076
- 相关8775、3068、0.7409440
【问题讨论】:
-
是训练集上的错误,还是测试集上的错误?
-
@larsmans 这可能是袋外错误(几乎是某种)测试集错误。
-
数据集是不平衡的,最简单的方法(概念上)是从第二类添加副本到它,比例为 1:4,每个观察将是三个副本,但这种方法是天真和计算要求很高
标签: r machine-learning classification random-forest