R从列生成二元组和三元组

【问题标题】：R generate bi- and trigrams from columnR从列生成二元组和三元组
【发布时间】：2011-09-17 09:59:00
【问题描述】：

我有一列每行包含一个单词：

 word
 -----
 asdf
 wer
 asdf

有没有办法在所有行中获取最频繁的二元和三元组？例如对于二元组：

aa: 10%
ab: 9%
.....

【问题讨论】：

标签： regex r

【解决方案1】：

我对这种特殊类型的问题没有经验，但是在 Google 的一些工作中发现了“基于 N-Gram 的文本分类”的 tau 包。在您的示例中使用 textcnt 函数如下所示：

x <- c('asdf','wer','asdf')
textcnt(x,3)

并且似乎返回了您正在寻找的信息。

【讨论】：