【发布时间】:2013-01-20 12:12:14
【问题描述】:
R 包randomForest 报告森林中每棵树 的均方误差。但是,我需要对数据中的每个案例进行置信度测量。由于 randomForest 通过平均单个树的预测来计算个案预测,我想它也应该可以计算个案标准误差,从而计算置信区间。这可以使用输出的 randomForest 对象来完成(如果是:如何?)还是我必须深入研究源代码?
【问题讨论】:
标签: r random-forest confidence-interval
R 包randomForest 报告森林中每棵树 的均方误差。但是,我需要对数据中的每个案例进行置信度测量。由于 randomForest 通过平均单个树的预测来计算个案预测,我想它也应该可以计算个案标准误差,从而计算置信区间。这可以使用输出的 randomForest 对象来完成(如果是:如何?)还是我必须深入研究源代码?
【问题讨论】:
标签: r random-forest confidence-interval
无需深入研究源代码。您只需要阅读文档。 ?predict.randomForest 声明其参数之一称为predict.all:
predict.all是否应该保留所有树的预测?
因此,将其设置为 TRUE 将为每个案例、每棵树保留一个预测,然后您可以使用它来计算每个案例的标准误差。
我最近了解到 Stefan Wager、Trevor Hastie 和 Brad Efron 的 this 论文,该论文更严格地研究了随机森林(和其他袋装预测器)生成的预测的标准误差的概念。
【讨论】: