【发布时间】:2021-10-06 02:05:08
【问题描述】:
我正在使用Fraud Transaction data 学习 R。当我尝试使用 ROSE 处理不平衡数据集时,弹出only handle continuous and categorical variables 错误。
这是我尝试过的:
str(dataset)
'data.frame': 6362620 obs. of 13 variables:
$ step : int 1 1 1 1 1 1 1 1 1 1 ...
$ type : chr "PAYMENT" "PAYMENT" "TRANSFER" "CASH_OUT" ...
$ amount : num 9840 1864 181 181 11668 ...
$ nameOrig : chr "C1231006815" "C1666544295" "C1305486145" "C840083671" ...
$ oldbalanceOrg : num 170136 21249 181 181 41554 ...
$ newbalanceOrig : num 160296 19385 0 0 29886 ...
$ nameDest : chr "M1979787155" "M2044282225" "C553264065" "C38997010" ...
$ oldbalanceDest : num 0 0 0 21182 0 ...
$ newbalanceDest : num 0 0 0 0 0 ...
$ isFraud : int 0 0 1 1 0 0 0 0 0 0 ...
$ isFlaggedFraud : int 0 0 0 0 0 0 0 0 0 0 ...
$ balancedOfOrigin: num -9840 -1864 -181 -181 -11668 ...
$ balancedOfDest : num 0 0 0 21182 0 ...
datadata_ROSE <- ROSE(isFraud~., data = dataset, N = 500, seed = 111)$data
有错误:
rose.sampl 中的错误(n,N,p,ind.majo,majoY,ind.mino, minoY, y, classy, : ROSE 句柄的当前实现 只有连续变量和分类变量。
调试:
# change the isFraud attribute into category 0/1
dataset$isFraud = as.factor(dataset$isFraud)
datadata_ROSE <- ROSE(isFraud~., data = dataset, N = 500, seed = 111)$data
最后还是无法解决错误。如何使数据集适合 ROSE 模型?
【问题讨论】:
标签: r dataframe imbalanced-data