【发布时间】:2020-11-12 04:12:53
【问题描述】:
我见过一些使用两个不同StandardScaler 的实验,如下所示:
scaler_1 = StandardScaler().fit(X_train)
train_sc = scaler_1.transform(X_train)
scaler_2 = StandardScaler().fit(X_test)
test_sc = scaler_2.fit(X_test)
我知道不应该对混合训练/测试数据的分类器产生偏见,但我想知道这种其他情况是否正确:
# X_all represents X feature vector before splitting (train + test)
X_scaled = StandardScaler().fit_transform(X_all)
X_train, y_train, X_test, y_test = train_test_split(X_scaled,y_all)
此外,我想知道这个案例如何扩展到KFold 交叉验证。
【问题讨论】:
标签: machine-learning scikit-learn