【发布时间】:2020-12-22 17:31:06
【问题描述】:
我有一个需要通过分类管道运行的数据集。数据集有 2 种类型的行:
-
描述:
description列已填充 -
非描述:
descriptioncolumn EMPTY
我想应用一个分类器只针对描述的数据,而另一个分类器用于未描述的数据。
我目前正在这样做,方法是分离数据集,然后分别使用相应的分类器对数据集进行预处理和馈送。我想要完成的是将这个过程融入到 Sklearn 管道中。应该是这样的:
classifierPipe = Pipeline([('preproc_described', DescPreprocessor),
('preproc_non_described', NonDescPreprocessor),
('clf_described', CLF1),
('clf_described', CLF2)
])
classifierPipe.fit(X_train,y_train)
我正在查看StackingClassifier,但根据文档,初始估计器应用于数据集中的所有行。
如何创建这样一个管道,其中每个分类器都针对整个数据集的特定子集?
【问题讨论】:
标签: python scikit-learn pipeline