SMOTE_RSB:基于粗糙集理论的SMOTE过采样方法

算法主体:

SMOTE_RSB算法是SMOTE算法的一种扩展算法,该算法主要分为两个阶段:

1.使用SMOTE算法生成一些少数类样本
2.基于粗糙集理论对生成的少数类样本进行清理

算法的主要步骤:

基于粗糙集理论的SMOTE算法以相似度作为判别依据,可细分为以下五步:

  1. 使用SMOTE算法对原数据集进行过采样,得到合成样本SyntheticInstance
  2. 将原数据集作为最终的输出数据集ResultSet
  3. 对每一个合成样本SytheticInstance(i),计算其与ResultSet中各个样本(j)的相似度SimilarityMatrix(i,j)
  4. 若SimilarityMatrix(i,j)均小于相似度阈值SimilarityValue,则认为该合成样本SytheticInstance(i)具有较高的价值,将其加入到输出数据集ResultSet中
  5. 将相似度阈值SimilarityValue调高,重复步骤3、4,直到相似度阈值达到某一最终值

相似度SimilarityMatrix(i,j)计算方法:
SMOTE_RSB:基于粗糙集理论的SMOTE过采样方法
其中:
n:为样本的属性特征维数
wk:为属性特征加权
M:为认为有价值的属性特征维数
wk的计算方法为:
SMOTE_RSB:基于粗糙集理论的SMOTE过采样方法
其中:
B:为有价值的属性特征集合
对于连续特征有:
SMOTE_RSB:基于粗糙集理论的SMOTE过采样方法
其中:
Xik,Xjk为相应样本对应的属性特征值
maxAk、minAk为相应属性的最大值和最小值
对于离散特征有:
SMOTE_RSB:基于粗糙集理论的SMOTE过采样方法

SMOTE_RSB算法的伪码:
SMOTE_RSB:基于粗糙集理论的SMOTE过采样方法

相关文章: