【发布时间】:2019-03-01 04:08:47
【问题描述】:
我尝试使用这种技术来纠正非常不平衡的类。
我的数据集有类,例如:
In [123]:
data['CON_CHURN_TOTAL'].value_counts()
Out[123]:
0 100
1 10
Name: CON_CHURN_TOTAL, dtype: int64
我想使用 SMOTETomek 在样本 0-class 和样本 1-class 之下达到 80 : 20 的比率。但是,我找不到更正字典的方法。当然,在完整代码中,80:20 的比例将根据行数计算。
当我尝试时:
from imblearn.combine import SMOTETomek
smt = SMOTETomek(ratio={1:20, 0:80})
我有错误:
ValueError:使用过采样方法时,a 中的样本数 类应该大于或等于原始样本数。 原来是100个样本,求80个样本。
但是这种方法应该适合同时进行欠采样和过采样。
很遗憾,由于 404 错误,documentary 现在无法正常工作。
【问题讨论】:
标签: python python-3.x scikit-learn data-science