【发布时间】:2016-06-14 20:05:37
【问题描述】:
有时,您获得的数据并不干净,并且使用、拼写错误或被操纵的词语存在变体。我们能找到与句子中的单词最相似的实例吗?
例如,如果我正在寻找单词“Awesome”,它已被用作句子中的变体,例如
"We had an awwweesssommmeeee dinner at sea resort"
"We had an awesomeeee dinner at sea resort"
"We had an awwesooomee dinner at sea resort"
etc..
【问题讨论】:
-
您必须考虑不小心选择了不应该匹配的单词,例如
"awful"。没有简单的答案。从agrep("awesome", x, max.distance=0.5, ignore.case=TRUE)开始,了解 Levenshtein 距离的工作原理。
标签: r string fuzzy-search stringdist