【发布时间】:2014-08-05 03:12:08
【问题描述】:
使用 R 中的 tm-package 创建一个 Document-Term-Matrix:
dtm <- DocumentTermMatrix(cor, control = list(dictionary=c("someTerm")))
结果如下:
A document-term matrix (291 documents, 1 terms)
Non-/sparse entries: 48/243
Sparsity : 84%
Maximal term length: 8
Weighting : term frequency (tf)
Terms
Docs someTerm
doc1 0
doc2 0
doc3 7
doc4 22
doc5 0
现在我想根据文档中 someTerm 出现的次数来过滤这个 Document-Term-Matrix。例如。仅过滤出 someTerm 至少出现一次的文档。 IE。 doc3 和 doc4 在这里。
我怎样才能做到这一点?
【问题讨论】:
标签: r matrix text-mining tm