【发布时间】:2020-01-18 14:45:21
【问题描述】:
我正在使用 scikit-learn 通过以下代码来训练基于 TF-IDF 特征向量的文本分类模型:
model = naive_bayes.MultinomialNB()
feature_vector_train = TfidfVectorizer().fit_transform(X)
model.fit(self.feature_vector_train, Y)
我需要按照 TF-IDF 权重的降序对提取的特征进行排序,并将它们分成两组不重叠的特征,最后训练两个不同的分类模型。如何将主要特征向量分组为奇数集和偶数集?
【问题讨论】:
-
您是否尝试通过特征的 TF-IDF 权重(即在将它们发送到模型之前)、模型赋予每个特征的权重或组合权重(TF-IDF 权重 *型号重量)?
-
@acattle 我需要在将它们发送到模型之前对其进行分组。
-
所以你想根据它们的 TF-IDF 权重对特征进行排名,然后将它们分成两个独立的特征矩阵,用于两个独立的分类器?
-
@acattle 是的,没错。
标签: python scikit-learn text-classification tfidfvectorizer