【发布时间】:2016-10-11 13:57:38
【问题描述】:
我正在使用 R-tm-Rweka 包进行一些文本挖掘。我必须提取 ngram,而不是在单个单词上构建 tf-tdm,这对我的目的来说还不够。我用@Ben函数TrigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 3))
tdm <- TermDocumentMatrix(a, control = list(tokenize = TrigramTokenizer))
提取三元组。输出有一个明显的错误,见下文。它会选择 4 个、3 个和 2 个单词的短语。理想情况下,它应该只拾取 4 个词的名词短语并删除(3 个和 2 个词)其余部分。我如何强制使用此解决方案,例如 Python NLTK 具有备份标记器选项?
抽象策略->this is incorrect>
抽象策略板->incorrect
抽象策略桌游-> this should be the correct output
埃森哲高管
口音行政简单
口音执行简单评论
非常感谢。
【问题讨论】:
-
所以,总而言之,你想做 2-gram 和 3-gram,对吧?
-
说:先尝试 4-gram,然后尝试 3-word 窗口,然后尝试 2-word 窗口,失败一个单词。但只报告最大的相关项目(不要重复 4、3、2 字词组)
标签: r text-mining tm rweka