【发布时间】:2011-09-17 09:59:00
【问题描述】:
我有一列每行包含一个单词:
word
-----
asdf
wer
asdf
有没有办法在所有行中获取最频繁的二元和三元组? 例如对于二元组:
aa: 10%
ab: 9%
.....
【问题讨论】:
我有一列每行包含一个单词:
word
-----
asdf
wer
asdf
有没有办法在所有行中获取最频繁的二元和三元组? 例如对于二元组:
aa: 10%
ab: 9%
.....
【问题讨论】:
我对这种特殊类型的问题没有经验,但是在 Google 的一些工作中发现了“基于 N-Gram 的文本分类”的 tau 包。在您的示例中使用 textcnt 函数如下所示:
x <- c('asdf','wer','asdf')
textcnt(x,3)
并且似乎返回了您正在寻找的信息。
【讨论】: