【发布时间】:2020-10-08 20:13:18
【问题描述】:
在导出 DocumentTermMatrix 时,我正在寻求有关我的 R 代码的帮助。文件太大而无法导出,所以我很好奇是否有办法为 DTM 设置频率?例如,仅返回 DTM 中已使用 5 次或更多次的值。
dtm <- DocumentTermMatrix(alltextclean)
write.csv(as.matrix(dtm), "dtm.csv")
以上产生的文件太大,我可以添加频率吗?我也尝试了以下方法,但留下了一个术语列表,但没有术语计数(这也很有用)。
termsonly <- findFreqTerms(dtm, 5)
write.csv(termsonly, "termsonly.csv")
在上面添加频率也会有所帮助。
感谢您的帮助!
【问题讨论】:
标签: r