使用 Countvectorizer 获取语料库中单词的总数答案

【问题标题】：Get total count of aword in corpus using Countvectorizer使用 Countvectorizer 获取语料库中单词的总数
【发布时间】：2021-06-09 23:56:36
【问题描述】：

我有以下格式的语料库：

corpus = ['text_1', 'text_2', ... . 'text_4280']

总共有 90141 个唯一词。对于每个单词，我想计算它在corpus 中出现的总次数。

为此，我使用了：

vectorizer = CountVectorizer(corpus)

目前，我知道这样做的唯一方法是：

vectorizer.fit_transform()

但是，这将创建一个形状为(4280, 90141) 的（稀疏）Numpy 数组。 CountVectorizer 是否有更节省内存的方法来获取文档项矩阵的所有列和？

【问题讨论】：

【解决方案1】：

你可以使用

vectorizer.fit_transform().toarray().sum(axis= 0)

编辑

我的错，你应该从上面的声明中删除.toarray()。我没有意识到你可以在稀疏数组上调用.sum()

vectorizer.fit_transform().sum(axis= 0)

【讨论】：