【问题标题】:Building the dataset for Random Forest training procedure为随机森林训练过程构建数据集
【发布时间】:2013-02-13 21:39:35
【问题描述】:

我应该使用 baggingbootstrap agregating 的缩写)技术来训练随机森林分类器。我阅读了here 对这种学习技术的描述,但我还没有弄清楚我最初是如何组织数据集的。

目前,我首先加载所有正面示例,然后立即加载负面示例。而且,正例不到负例的一半,所以从数据集中均匀采样,得到负例的概率大于得到正例的概率。

我应该如何构建初始数据集? 我应该打乱包含正面和负面示例的初始数据集吗?

【问题讨论】:

    标签: algorithm machine-learning decision-tree random-forest


    【解决方案1】:

    Bagging 依赖于使用 bootstrap samples 来训练不同的预测器,并聚合它们的结果。请参阅上面的链接以获取完整的详细信息,但简而言之 - 您需要从数据中重复采样(即,如果您有 N 个编号为 1 到 N 的元素,则选择 1 到 N 之间的 K 个随机整数,然后选择那些 N 个元素作为训练集),通常创建与原始数据集大小相同的样本(即 K=N)。

    您可能还应该记住一件事 - 随机森林不仅仅是对原始数据的引导聚合 - 还有一个随机选择的特征子集用于每棵树。

    【讨论】:

      猜你喜欢
      • 2013-08-30
      • 2017-01-22
      • 2019-07-20
      • 2021-07-06
      • 2020-10-31
      • 2018-06-13
      • 2012-10-25
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多