R中的randomForest：是否有可能计算案例置信区间？答案

【问题标题】：randomForest in R: Is there a possibility of calculating casewise confidence intervals?R中的randomForest：是否有可能计算案例置信区间？
【发布时间】：2013-01-20 12:12:14
【问题描述】：

R 包randomForest 报告森林中每棵树的均方误差。但是，我需要对数据中的每个案例进行置信度测量。由于 randomForest 通过平均单个树的预测来计算个案预测，我想它也应该可以计算个案标准误差，从而计算置信区间。这可以使用输出的 randomForest 对象来完成（如果是：如何？）还是我必须深入研究源代码？

【问题讨论】：

标签： r random-forest confidence-interval

【解决方案1】：

无需深入研究源代码。您只需要阅读文档。 ?predict.randomForest 声明其参数之一称为predict.all：

predict.all是否应该保留所有树的预测？

因此，将其设置为 TRUE 将为每个案例、每棵树保留一个预测，然后您可以使用它来计算每个案例的标准误差。

我最近了解到 Stefan Wager、Trevor Hastie 和 Brad Efron 的 this 论文，该论文更严格地研究了随机森林（和其他袋装预测器）生成的预测的标准误差的概念。

【讨论】：

抱歉在这里提问。但要确定的是，这里的 RandomForest 类型是预测，否则我们不能谈论置信区间，不是吗？
@agstudy 不确定我是否关注。我很乐意承认，预测区间的统计含义在这里很可能是有问题的，但在某种程度上，预测只是平均值，所以以一种天真的方式计算每个预测区间的“置信区间”真的确实相当于计算 CI 的平均值。结果间隔是否意味着任何有用的东西显然是一个单独的问题......
谢谢。我的问题是因为我们可以 randomForest 执行分类或回归（object$type ='predictions'）。那么在分类的情况下计算CI，有什么统计意义吗？
@agstudy 哦，我明白了。是的，这个答案（实际上是这个问题）只有在他们构建回归树时才有意义。如果他们在进行分类，那么整个想法就会失效。
谢谢。我要求提供证据，因为我不是统计学家。否则@Eric Here 的答案是答案的开始吗？