【发布时间】:2020-07-01 09:49:47
【问题描述】:
使用以下代码创建用于训练决策树的数据集:
set.seed(2)
train_sample <- sample(nrow(X), nrow(X) * 0.7)
X_test <- X[-train_sample,]
这将创建一个包含 70% 数据的训练样本和一个包含其他 30% 数据的测试样本。
我遇到的问题是,这没有考虑到目标列中的某些值比其他值更稀有。例如,目标列可能包含范围从 4 到 8 的值。但是,其中 90% 的范围是从 5 到 7。这意味着只有 10% 的整个(目标)数据是 4 或 8。
我应该如何最好地解决这个问题,我应该在构建训练集时考虑到这一点,还是应该忽略它?如果我应该考虑建立一个训练集,我该如何考虑呢?有没有什么简单的方法可以申请?
【问题讨论】:
-
@zx8754 我应该搜索它叫什么:分层抽样?
-
是的,分层抽样。
标签: r decision-tree