【发布时间】:2015-12-03 02:29:55
【问题描述】:
有没有办法在随机森林中引入“未知”类别或进行二元分类?
我想将数据输入一个随机森林,如果投票百分比超过 70%,我只想对其进行分类。我总共有 6 个类别,所以我最初做的是创建一个随机森林,并且截止值自动默认为 c(16.6, 16.6, 16.6, 16.6, 16.6, 16.6)。这是相当低的,所以相反,我想:
- 为使用二元分类的每个类别(总共 6 个)创建一个随机森林(它属于或不属于该类别 - 所以它是未知的),然后将未知数据输入下一棵树,依此类推。
- 或者,我希望能够坚持一个随机森林,但要引入新的截止值,允许我指定“获胜”类别的选票比例必须大于 70%,并且任何未标记为“未知”的数据。
第二种方法目前存在问题,因为截止值需要总和为 1,第一种建议是一个问题,因为我似乎无法弄清楚如何在 R 中进行二进制分类。
无论如何,是否可以克服其中任何一个,并引入“未知”类别?谢谢
【问题讨论】:
标签: r machine-learning classification random-forest prediction