scikit-learn - 将管道预测转换为原始值/比例答案

【问题标题】：scikit-learn - Convert pipeline prediction to original value/scalescikit-learn - 将管道预测转换为原始值/比例
【发布时间】：2023-03-11 10:50:01
【问题描述】：

我创建了如下管道（使用Keras Scikit-Learn API）

estimators = []
estimators.append(('standardize', StandardScaler()))
estimators.append(('mlp', KerasRegressor(build_fn=baseline_model, nb_epoch=50, batch_size=5, verbose=0)))
pipeline = Pipeline(estimators)

并适应它

pipeline.fit(trainX,trainY)

如果我使用pipline.predict(testX) 进行预测，我（相信）我会得到标准化的预测。

我如何预测 testX 以使 predictedY 它与实际（未触及）testY 具有相同的规模（即不是标准化的预测，而是实际值）？我看到有一个inverse_transform method for Pipeline，但似乎只用于恢复转换后的X。

【问题讨论】：

我可能误解了 fit 方法 - 我现在认为转换只发生在输入特征 X 和 not Y （因此拟合模型是非标准化的Y)，所以predict 方法会产生非标准化的预测？

标签： python machine-learning scikit-learn keras data-science

【解决方案1】：

没错。管道中的 StandardScaler() 仅映射 pipeline.fit(trainX,trainY) 的输入 (trainX)。

因此，如果您将模型拟合到近似 trainY 并且还需要对其进行标准化，则应该将您的 trainY 映射为

scalerY = StandardScaler().fit(trainY)  # fit y scaler
pipeline.fit(trainX, scalerY.transform(trainY))  # fit your pipeline to scaled Y
testY = scalerY.inverse_transform(pipeline.predict(testX))  # predict and rescale

inverse_transform() 函数映射其值时会考虑 StandardScaler().fit() 中计算的标准偏差和平均值。

正如您所提到的，您始终可以在不缩放 Y 的情况下拟合您的模型，但这可能会很危险，具体取决于您的数据，因为它可能导致您的模型过度拟合。你必须测试它;)

【讨论】：