【发布时间】:2018-10-19 02:49:56
【问题描述】:
我正在处理一个不平衡的数据集,并希望使用 scikit 的 gridsearchcv 进行网格搜索以调整模型的参数。为了对数据进行过采样,我想使用 SMOTE,我知道我可以将其作为管道的一个阶段并将其传递给 gridsearchcv。 我担心的是,我认为 smote 将同时应用于训练和验证折叠,这不是你应该做的。验证集不应过采样。 整个管道将应用于两个数据集拆分,我对吗?如果是的话,我该如何扭转这个局面? 提前非常感谢
【问题讨论】:
标签: python machine-learning scikit-learn grid-search oversampling