【发布时间】:2015-10-16 21:03:02
【问题描述】:
我创建了一个看起来像这样的文档术语矩阵:
inspect(dtm[1:4,1:6])
allowed allowing almost alone companyunder companywide
Doc1.txt 1 1 1 0 1 0
Doc2.txt 0 1 1 0 1 1
Doc3.txt 0 0 0 1 0 1
Doc4.txt 1 0 1 0 1 1
在获取它的列总和后,它给了我。
colSums(dtm)
allowed 2
allowing 2
almost 3
alone 1
companyunder 3
companywide 3
这实质上表明这些词在多少个文档中找到(例如 allowed 2 告诉我在两个文档中找到了 allowed 。)。
我在创建频率分布图时遇到困难,该图将 x 轴作为文档编号,y 轴作为文档包含的单词数。
【问题讨论】: