【发布时间】:2015-06-20 10:07:45
【问题描述】:
我有一系列文件,每个文件都包含字数。 每个文件可以有不同的单词。这是一个例子:
文件A
word1,20
word2,10
word3,2
文件B:
word1,10
word4,50
word3,5
大约有 20k 个文件,每个文件最多可以包含数万个单词。
我最终想要构建一个稀疏矩阵,其中每一行代表一个文件的单词分布,就像你从 scikit's CountVectorizer 中得到的一样。
如果 word1、word2、word3、word4 是列,anf FileA 和 FileB 是行,那么我希望得到:
[[20,10,2,0],[10,0,5,50]]
我怎么能做到这一点? 如果可能的话,我还希望能够仅包含出现在至少 N 个文件中的单词。
【问题讨论】:
-
stackoverflow.com/questions/1938894/… 有一个广受好评的答案。我认为 N 文件要求是一个棘手的要求。生成两个矩阵,一个带字数,一个带文件数,后面用后者作为前者的掩码?您可以相对轻松地调整 N,这似乎很有用。
标签: python nlp sparse-matrix