【发布时间】:2019-02-11 06:36:02
【问题描述】:
我有一个包含大约 130000 条记录的数据集。记录分为两类目标变量,0和1。1只占总比例的0.09%。
我正在 Windows 10 上的 R-3.5.1 中运行我的分析。我使用 SMOTE 算法来处理这个不平衡的数据集。
我使用以下代码来处理不平衡的数据集
library(DMwR)
data_code$target=as.factor(data_code$target) #Converted to factor as
# SMOTE works with factor data type
smoted_data <- SMOTE(target~., data_code, perc.over=100)
但是在执行代码之后,我看到 0 的计数是 212,而 1 也是 212,这大大减少了我的样本量。你能建议我如何在不改变我的情况下使用 SMOTE 处理这个不平衡的数据集吗?数据大小
【问题讨论】:
-
请给出重现您问题的示例代码,以便人们尝试并提出解决方案。见stackoverflow.com/help/mcve
-
嗨@denis,我已经给出了我在帖子中使用的代码。你还想要什么?
-
人们想要的,正如我提供的链接中广泛描述的那样,是示例数据。如果我复制粘贴您的代码,我将一无所获,因为我不知道
data_code。如果我提出一个解决方案,我无法测试它。我必须自己创建一个示例,但这应该是您在这里工作的一部分。创建一个伪造的data_code集来重现问题并将其发布在您的问题中(避免使用外部链接)。 -
抱歉,我无法与您分享 data_code,因为它包含客户数据。
-
再一次,我/我们不要求您共享数据集:创建一个重现您的问题的假数据集。
标签: r statistics sample-size