【问题标题】:R generate bi- and trigrams from columnR从列生成二元组和三元组
【发布时间】:2011-09-17 09:59:00
【问题描述】:

我有一列每行包含一个单词:

 word
 -----
 asdf
 wer
 asdf

有没有办法在所有行中获取最频繁的二元和三元组? 例如对于二元组:

aa: 10%
ab: 9%
.....

【问题讨论】:

    标签: regex r


    【解决方案1】:

    我对这种特殊类型的问题没有经验,但是在 Google 的一些工作中发现了“基于 N-Gram 的文本分类”的 tau 包。在您的示例中使用 textcnt 函数如下所示:

    x <- c('asdf','wer','asdf')
    textcnt(x,3)
    

    并且似乎返回了您正在寻找的信息。

    【讨论】:

      猜你喜欢
      • 2013-11-30
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-08-01
      • 1970-01-01
      • 1970-01-01
      • 2015-12-23
      • 2018-10-04
      相关资源
      最近更新 更多