【发布时间】:2020-01-23 17:40:58
【问题描述】:
我正在尝试找出一种方法来找到来自同一个词根的所有关键字(在某种意义上与词干相反的作用)。目前,我正在使用 R 进行编码,但如果有帮助,我愿意切换到其他语言。
例如,我有词根“rent”,我希望能够找到“renting”、“renter”、“rental”、“rents”等。
【问题讨论】:
-
对于简单的情况
grepl("rent", c("renting", "renter", "rental", "rents", "apple"))可能有效。 -
您还可以查看诸如 Levenshtein Distance 之类的东西,它衡量单词的相似度。