【发布时间】:2019-03-26 04:53:12
【问题描述】:
我想在我的火车组中重复我的少数族裔班级的特定行。我知道,这不是一种很花哨的工作方式,但我只是想尝试一下。
假设,我有这个数据框:
> df
group type number
1 class1 one 4
2 class1 three 10
3 class1 nine 3
4 class4 seven 9
5 class1 eight 4
6 class1 ten 2
7 class1 two 22
8 class4 eleven 8
现在我想多次重复我的少数类 (class4) 的行,以便在新数据框中有 50% 的 class1 和 50% 的 class4。
我知道有 rep 函数,但我只能找到重复整个数据帧的解决方案。
我该怎么做?
【问题讨论】:
-
你有什么 id 超过 2 个组?那么你想让他们分成 33% 吗?
-
不,我只要这两门课
-
您不需要这样做:如果您只想在重采样中提高少数类的权重,只需将每个类的权重设置为与频率成反比即可。 大多数分类器(RF、树、LR、NN 等允许权重)。如果您想通过创建合成示例来重新采样少数类,请使用 SMOTE。见Dealing with the class imbalance in binary classification
-
@smci 感谢您的评论!我已经在决策树中加权了我的少数类并使用了 SMOTE 函数,但结果并不那么有希望。
-
@pineapple:嗯,请告诉我们更多信息。你对训练的评价函数是什么? (原始准确率?AUC?别的什么?)类不平衡有多大,请张贴表格。 至于 SMOTE,请发布您的确切命令行。还要张贴评估功能的前后分数。
标签: r machine-learning classification repeat sampling