【问题标题】:Data scaling before call SMOTENC for continuos and categorical features调用 SMOTENC 之前的数据缩放以获得连续和分类特征
【发布时间】:2019-11-07 14:42:27
【问题描述】:

到目前为止,我运行 SMOTENC 的代码如下。

from imblearn.over_sampling import SMOTENC
smt = SMOTENC(random_state=seed, categorical_features=[10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53], ratio=1.0, n_jobs = -1)     
# n_jobs = The number of threads to open if possible. ``-1`` means using all processors.
# default K=5 
X_res, y_res = smt.fit_sample(X_tra, y_tra)

这里的问题是我正在阅读有关 SMOTE 的内容,并且由于它使用具有欧几里德距离的 KNN 算法,因此应该在调用 SMOTENC() 之前对数据进行缩放。

如果数据集的前 10 个特征为整数,其余为分类特征,在这种情况下我应该如何进行缩放过程?

【问题讨论】:

    标签: python smote


    【解决方案1】:

    我建议根据您的数据分布使用MinMaxScalerStandardScaler 来缩放数值/连续特征。 关于分类特征,这不是选择SMOTENC 而不是SMOTE 算法的重点吗?

    【讨论】:

      猜你喜欢
      • 2020-09-21
      • 2016-04-03
      • 2022-11-15
      • 2021-03-09
      • 2020-07-08
      • 1970-01-01
      • 1970-01-01
      • 2017-06-29
      • 1970-01-01
      相关资源
      最近更新 更多