根据正确的单词将拼写错误的单词分组的方法？答案

【问题标题】：Method to classify misspelled words in groups according to the right word?根据正确的单词将拼写错误的单词分组的方法？
【发布时间】：2016-04-14 18:47:38
【问题描述】：

我有一个很长的国家/地区列表，我需要根据它们的原始名称对它们进行分组。实际上有很多拼写错误，但有很多是用其他语言编写的。例如

泰国调谐器突尼斯突尼斯土耳其土耳其人土耳其泰国意大利意大利人意大利

如何轻松地将它们分组？因为用手对它们进行分类是有史以来最大的痛苦。我已经考虑过某种读取字符串或字符的方法，但我还没有找到一种有效的方法。我可以使用 R 和 C/C++。

非常感谢您的帮助！

非常感谢您的帮助！！

【问题讨论】：

标签： r text text-mining

【解决方案1】：

这是一种方法：

x <- trimws(readLines(n=11))
THAILAND 
TUNESIE 
TUNIS 
TUNISIE 
TURCQUIE 
TURKIJE 
TURQUIE 
Tailand 
italie 
italien 
italy
m <- adist(x, x, ignore.case = T); colnames(m) <- x; rownames(m) <- x
hc <- hclust(as.dist(m), method="average")
plot(hc); rect.hclust(hc, h=3.8)
split(x, cutree(hc, h=3.8))
# $`1`
# [1] "THAILAND" "Tailand" 
# 
# $`2`
# [1] "TUNESIE" "TUNIS"   "TUNISIE"
# 
# $`3`
# [1] "TURCQUIE" "TURKIJE"  "TURQUIE" 
# 
# $`4`
# [1] "italie"  "italien" "italy"

Here 是另一个。

【讨论】：