【发布时间】:2018-02-27 01:03:56
【问题描述】:
我正在尝试使用sklearn 中的 20 个 NewsGroups 数据集。我使用以下代码将所有训练和测试数据导入到 2 个utils.Bunch 结构中:
from sklearn.datasets import fetch_20newsgroups
# Import Newsgroup data
newsgroups_train = fetch_20newsgroups(subset='train')
newsgroups_test= fetch_20newsgroups(subset='test')
我的最终目标是在数据集上使用朴素贝叶斯分类器来了解它是如何工作的,并看看我能做到多准确。我正在尝试通过用“词袋”表示来为分类器准备数据集。
根据我的研究,我应该能够使用sklearn.feature_extraction.text.HashingVectorizer 完成此操作
但是,我不清楚如何实现这一点,因为我拥有的两个数据结构不寻常,我不确定如何从中提取数据。
【问题讨论】:
-
您想知道如何为词袋准备模型还是您对此感到好奇?
-
我想知道如何使用 HashingVectorizer 为词袋准备模型
-
哈希向量没有反函数,通常使用
CountVectorizer比较合适。 -
@ncfirth 我将如何使用它?
-
类似于下面的答案。我认为您需要先阅读一下您想要使用的方法,然后再提出更多关于 SO 的问题,也许可以开始 here
标签: python scikit-learn