【发布时间】:2015-03-12 23:01:18
【问题描述】:
根据 chawla 等人 (2002) 撰写的论文 平衡数据的最佳性能是将欠采样与 SMOTE 相结合。
我尝试使用欠采样和 SMOTE 组合我的数据集, 但我对欠采样的属性有点困惑。
在 weka 中有 Resample 来减少多数类。 Resample 中有一个属性 biasToUniformClass -- 是否对统一类使用偏差。值 0 保持类分布不变,值 1 确保类分布在输出数据中是均匀的。
我使用值 0,多数类的数据下降,所以少数类的数据下降,当我使用值 1 时,多数类的数据减少,但少数类的数据上升。
我尝试为该属性使用值 1,但我没有使用 smote 来增加少数类的实例,因为数据已经平衡,结果也很好。
那么,这与我将 SMOTE 和欠采样结合起来是否相同,或者我仍然必须尝试在该属性中使用值 0 并执行 SMOTE?
【问题讨论】:
标签: dataset classification data-mining