【发布时间】:2019-06-08 11:46:38
【问题描述】:
我有一个包含不平衡的多类因变量的数据集。我想知道训练模型的正确顺序是什么:
1)标准化-过采样-traintestsplit
2)traintestsplit-标准化-过采样
3)traintestsplit-oversampling-standardizing
【问题讨论】:
标签: machine-learning data-science decision-tree oversampling
我有一个包含不平衡的多类因变量的数据集。我想知道训练模型的正确顺序是什么:
1)标准化-过采样-traintestsplit
2)traintestsplit-标准化-过采样
3)traintestsplit-oversampling-standardizing
【问题讨论】:
标签: machine-learning data-science decision-tree oversampling
欢迎加入。
关于您的问题,更好的方法可能是:
preprocessing -> train test split -> normalizing -> over/undersampling
这必须是您的第一项任务,这包括从数据中删除错误并加入分散在公司各处所需的所有类型的数据。
这必须是下一步要做的事情,因为有两件事:
如果您在拆分之前对数据集进行规范化,您可能会用测试数据信息污染您的模型训练(模型必须能够处理看不见的值)
测试数据必须是真实世界的数据,因为它是,如果您对此应用任何类型的采样,您正在改变这个现实。
在采样之前标准化您的数据是一种很好的做法,因为一些采样方法使用模型来生成新的数据点,并且接收标准化的数据会产生更好的采样。
最后,对你的数据进行抽样,我建议你评估不同的抽样方法和抽样比率,并比较结果。
【讨论】: