【发布时间】:2021-06-09 23:56:36
【问题描述】:
我有以下格式的语料库:
corpus = ['text_1', 'text_2', ... . 'text_4280']
总共有 90141 个唯一词。
对于每个单词,我想计算它在corpus 中出现的总次数。
为此,我使用了:
vectorizer = CountVectorizer(corpus)
目前,我知道这样做的唯一方法是:
vectorizer.fit_transform()
但是,这将创建一个形状为(4280, 90141) 的(稀疏)Numpy 数组。 CountVectorizer 是否有更节省内存的方法来获取文档项矩阵的所有列和?
【问题讨论】:
标签: python-3.x numpy sparse-matrix countvectorizer