【发布时间】:2019-02-13 00:04:59
【问题描述】:
我已经创建了一个类似于本文中的 DocumentTermMatrix:
Keep document ID with R corpus
我在哪里维护了 doc_id,以便我可以将数据连接回更大的数据集。
我的问题是我不知道如何总结单词和字数并保留 doc_id。我希望能够仅使用 3 列(doc_id、word、freq)将此数据加入现有数据集。
不需要 doc_id,这很简单,我使用此代码来获得最终结果。
df_source=DataframeSource(df)
df_corpus=VCorpus(df_source)
tdm=TermDocumentMatrix(df_corpus)
tdm_m=as.matrix(tdm)
word_freqs=sort(rowSums(tdm_m), decreasing = TRUE)
tdm_sorted=data.frame(word = names(word_freqs), freq = word_freqs)
我已经尝试了几种不同的方法,但无法让它发挥作用。这就是我现在的位置 (image)。我用过这段代码:
tdm_m=cbind("doc.id" =rownames(tdm_m),tdm_m)
将 doc_id 移动到矩阵中的列中,但无法将数字列求和并保持 doc_id 关联。
任何帮助,非常感谢,谢谢!
预期结果:
doc.id |词 |频率
1 |苹果 | 2
2 |苹果 | 1
3 |香蕉 | 4
3 |橙色 | 1
4 |梨 | 3
【问题讨论】:
-
请在问题中添加一个小的预期输出。
-
用预期结果更新了原始问题。
标签: r text-mining tm corpus