【发布时间】:2014-12-20 00:56:02
【问题描述】:
我有句子向量,比如说:
x = c("I like donut", "I like pizza", "I like donut and pizza")
我想计算两个单词的组合。理想的输出是一个包含 3 列(word1、word2 和频率)的数据框,应该是这样的:
I like 3
I donut 2
I pizza 2
like donut 2
like pizza 2
donut pizza 1
donut and 1
pizza and 1
在输出的第一条记录中,freq = 3 因为"I" 和"like" 一起出现了3 次:x[1]、x[2] 和x[3]。
感谢任何建议:)
【问题讨论】:
-
您在发布此问题之前是否使用了谷歌或搜索栏?试试this 或this 或any of these。
-
I I和like like等呢?大概你只想要那些 不同 词的组合?gtools::permutations在这里可能对你有用 -
@OliverKeyes :是的,当然。
-
@RichardScriven。是的,我只想要不同单词的组合。谢谢你的建议,我会试试
gtools:)
标签: r