【问题标题】:randomForest in R: Is there a possibility of calculating casewise confidence intervals?R中的randomForest:是否有可能计算案例置信区间?
【发布时间】:2013-01-20 12:12:14
【问题描述】:

R 包randomForest 报告森林中每棵 的均方误差。但是,我需要对数据中的每个案例进行置信度测量。由于 randomForest 通过平均单个树的预测来计算个案预测,我想它也应该可以计算个案标准误差,从而计算置信区间。这可以使用输出的 randomForest 对象来完成(如果是:如何?)还是我必须深入研究源代码?

【问题讨论】:

    标签: r random-forest confidence-interval


    【解决方案1】:

    无需深入研究源代码。您只需要阅读文档。 ?predict.randomForest 声明其参数之一称为predict.all

    predict.all是否应该保留所有树的预测?

    因此,将其设置为 TRUE 将为每个案例、每棵树保留一个预测,然后您可以使用它来计算每个案例的标准误差。

    我最近了解到 Stefan Wager、Trevor Hastie 和 Brad Efron 的 this 论文,该论文更严格地研究了随机森林(和其他袋装预测器)生成的预测的标准误差的概念。

    【讨论】:

    • 抱歉在这里提问。但要确定的是,这里的 RandomForest 类型是预测,否则我们不能谈论置信区间,不是吗?
    • @agstudy 不确定我是否关注。我很乐意承认,预测区间的 统计 含义在这里很可能是有问题的,但在某种程度上,预测只是平均值,所以以一种天真的方式计算每个预测区间的“置信区间”真的确实相当于计算 CI 的平均值。结果间隔是否意味着任何有用的东西显然是一个单独的问题......
    • 谢谢。我的问题是因为我们可以 randomForest 执行分类或回归(object$type ='predictions')。那么在分类的情况下计算CI,有什么统计意义吗?
    • @agstudy 哦,我明白了。是的,这个答案(实际上是这个问题)只有在他们构建回归树时才有意义。如果他们在进行分类,那么整个想法就会失效。
    • 谢谢。我要求提供证据,因为我不是统计学家。否则@Eric Here 的答案是答案的开始吗?
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-09-01
    • 2020-12-30
    • 2021-04-12
    • 2015-01-04
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多