【发布时间】:2020-02-28 15:52:33
【问题描述】:
我需要找到一种自动化方法来获取我的原始向量并将每个单词(无论向量中的位置如何)转换为新向量。每个新向量都反映了其基础词在原始向量的每个元素中的存在。
我需要转这个:
OriginalVector <- c("Nimble red fox", "Lazy Grey Dog", "Red Fox funny")
进入这个:
Nimble Red Fox Lazy Grey Dog Funny
1 1 1 0 0 0 0
0 0 0 1 1 1 0
0 1 1 0 0 0 1
每一行都应该对应于原始向量中的每个元素。也就是说,数字1反映了每个单词在原始向量“The nimble red fox”的第一个元素中的出现,第二行反映了每个单词在“Lazy Grey Dog”中的出现,......等等
我的现实世界问题有 300,000 多个元素和数十万个独特的单词。我可以使用r grep() 或r grepl(),但是尝试单独构建每个向量会令人难以置信。他们是解决这个问题的自动化方法吗?
注意:我不是在寻找单词共现矩阵。相反,我需要一个频率表行(原始向量元素)x 字。
【问题讨论】:
-
不!原始向量中的所有单词都应保留在池中。
-
10 小时编程。