【发布时间】:2018-02-26 04:39:20
【问题描述】:
我有一个具有属性 A、B、C 的数据集。C 是具有 2 个标签 zz 和 z 的因子。 number of (z) > number of (zz),我想在样本下我的数据集,以便在新数据中具有相同的 zz 和 z 值。 不能为此使用任何外部包。 如果可以使用 sample 函数完成最好
--------------------------------------------------
| Attribute A | Attribute B . | Attribute c |
--------------------------------------------------
| xx | y1 | zz |
--------------------------------------------------
| mm | r1 | z |
--------------------------------------------------
| ab | 1r | z |
--------------------------------------------------
| ry | cm | zz |
--------------------------------------------------
| ca | rx | z |
--------------------------------------------------
| mm | zr | z |
--------------------------------------------------
结果应该是-
| Attribute A | Attribute B . | Attribute c |
--------------------------------------------------
| xx | y1 | zz |
--------------------------------------------------
| mm | r1 | z |
--------------------------------------------------
| ab | 1r | z |
--------------------------------------------------
| ry | cm | zz |
--------------------------------------------------
这里 zz 的概率 = z 的概率 = 0.5
【问题讨论】:
-
不清楚您的数据究竟是什么样的。请提供一些可重现的数据,作为
dput的输出或生成更大随机样本的代码。还包括您的预期输出。到目前为止,您尝试过哪些代码对其进行采样? -
@sapy 您可以尝试类似
sample(C$x, length(C$y))的方法,其中C$x是C 向量中的x 值,C$y是向量中的y 值。如果没有您的数据集或数据集示例,就无法提供正确的答案。 -
检查
ROSE包,DmwR包中的smote或downSample和upSample包中的upSample
标签: r random analytics data-science