【发布时间】:2013-08-22 14:18:21
【问题描述】:
我知道我可以使用 tm 包通过 Dictionary 函数来计算语料库中特定单词的出现次数:
require(tm)
data(crude)
dic <- Dictionary("crude")
tdm <- TermDocumentMatrix(crude, control = list(dictionary = dic, removePunctuation = TRUE))
inspect(tdm)
我想知道是否有一种工具可以向 Dictionary 提供正则表达式而不是固定单词?
有时词干可能不是我想要的(例如,我可能想找出拼写错误),所以我想做类似的事情:
dic <- Dictionary(c("crude",
"\\bcrud[[:alnum:]]+"),
"\\bcrud[de]")
然后继续使用 tm 包的功能?
【问题讨论】:
标签: regex r text-mining tm