【发布时间】:2018-06-01 17:54:54
【问题描述】:
我正在开发一个文本分类器,我想对其进行以下操作
- 使用客户转换器TextCounts在文本上创建新特征(如字数、哈希标签数等)
- 使用自定义转换器CleanText清理文本并对其应用CountVectorizer
- 将第 1 步和第 2 步的特征组合为我的分类器的输入
我设法为此创建了一个管道,但我不确定它是否像上面解释的那样运行。
features = FeatureUnion(n_jobs=-1,
[('textcounts', TextCounts())
, Pipeline([
('cleantext', CleanText())
, ('vect', vect)
])
])
pipeline = Pipeline([
('features', features)
, ('clf', clf)
])
事实上,我不确定 CountVectorizer 是应用于清理后的文本还是原始文本。有没有办法解决这个问题?谢谢!
【问题讨论】:
-
FeatureUnion 将向其所有内部转换器提供相同的输入数据。所以你在这里尝试做的是正确的。
标签: python scikit-learn pipeline