【发布时间】:2021-01-04 02:50:24
【问题描述】:
This example on sklearn website 和 this answer to sklearn pipelines on SO 在管道中使用并仅讨论使用 .fit() 或 .fit_transform() 方法。
但是,我如何在 Pipelines 中使用 .predict 或 .transfrom 方法。假设我已经预处理了我的训练数据,搜索了最佳超参数并训练了一个 LightGBM 模型。根据definition,我现在想预测新数据,而不是手动执行所有上述操作,我想一个接一个地完成它们:
依次应用变换列表和最终估算器。 管道的中间步骤必须是“转换”,即它们 必须实现 fit 和 transform 方法。仅最终估计器 需要实现fit。
但是,我只想在我的验证(或测试)数据上实现 .transform 方法,以及更多采用 pandas Series(或 DataFrame 或 numpy 数组)并返回处理过的函数(或类),然后最终实现 @我的 LightGBM 的 987654327@ 方法,它将使用我已有的超参数。
我目前什么都没有,因为我不知道如何正确地包含类的方法(比如
StandardScaler_instance.transform()) 和更多这样的方法。!
我该怎么做或者我错过了什么?
【问题讨论】:
标签: python machine-learning scikit-learn pipeline