【问题标题】:Method to classify misspelled words in groups according to the right word?根据正确的单词将拼写错误的单词分组的方法?
【发布时间】:2016-04-14 18:47:38
【问题描述】:

我有一个很长的国家/地区列表,我需要根据它们的原始名称对它们进行分组。实际上有很多拼写错误,但有很多是用其他语言编写的。例如

泰国 调谐器 突尼斯 突尼斯 土耳其 土耳其人 土耳其 泰国 意大利 意大利人 意大利

如何轻松地将它们分组?因为用手对它们进行分类是有史以来最大的痛苦。 我已经考虑过某种读取字符串或字符的方法,但我还没有找到一种有效的方法。我可以使用 R 和 C/C++。

非常感谢您的帮助!

非常感谢您的帮助!!

【问题讨论】:

    标签: r text text-mining


    【解决方案1】:

    这是一种方法:

    x <- trimws(readLines(n=11))
    THAILAND 
    TUNESIE 
    TUNIS 
    TUNISIE 
    TURCQUIE 
    TURKIJE 
    TURQUIE 
    Tailand 
    italie 
    italien 
    italy
    m <- adist(x, x, ignore.case = T); colnames(m) <- x; rownames(m) <- x
    hc <- hclust(as.dist(m), method="average")
    plot(hc); rect.hclust(hc, h=3.8)
    split(x, cutree(hc, h=3.8))
    # $`1`
    # [1] "THAILAND" "Tailand" 
    # 
    # $`2`
    # [1] "TUNESIE" "TUNIS"   "TUNISIE"
    # 
    # $`3`
    # [1] "TURCQUIE" "TURKIJE"  "TURQUIE" 
    # 
    # $`4`
    # [1] "italie"  "italien" "italy" 
    

    Here 是另一个。

    【讨论】:

      猜你喜欢
      • 2020-10-26
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2010-10-16
      • 2018-11-25
      • 2015-05-06
      • 2020-12-20
      • 2020-06-02
      相关资源
      最近更新 更多