模糊字符串比较 - 检测速记名称答案

【问题标题】：Fuzzy String Comparison - Detecting shorthand names模糊字符串比较 - 检测速记名称
【发布时间】：2012-04-27 01:17:15
【问题描述】：

这将是我第二次询问关于计算语言学/模糊字符串匹配的问题，但这次不是关于词干。

我的第一个问题是使用模糊字符串匹配对数据库进行重复数据删除，而我已经做到了。现在，我必须检测一个字符串是否是另一个字符串的简写。例如：

我目前正在使用 SimMetrics 的 .Net 版本来解决我的第一个问题。那么，SimMetrics 中有没有一种方法可以解决我的问题呢？如果没有，那么解决这个问题的最佳方法是什么？

这是 SimMetrics 中实现的指标：

我对所有这些算法都不是很熟悉。我已经在这里使用的是 Leveshtein Distance、Needleman-Wunch、Jaro-Winkler、SoundEx 和 TF/IDF。而且我认为这些算法还不足以解决这个速记名问题

【问题讨论】：

您能否提供更多关于您是如何做到这一点的信息：My first problem was to deduplicate a database using fuzzy string matching, and I already accomplished that

【解决方案1】：

您很可能需要自定义方法。这是我要尝试的：

在这里，您可以使用单词的第一个字母来获取缩写。如果所有出现的最后一个单词都是完整的，这很可能会为您提供独特的分辨率，否则您可能会找到具有相同缩写的其他单词序列（例如 JAFW：Java 作为外来词）

在这里，您需要一个已知单词的字典，并认识到 Microsoft 可以从 Micro 和 Soft 放在一起（假设两者都在你的字典）并在这些上使用第一种方法

在这里，您将需要一个单词词典和自定义缩写（我认为您不会找到一种可以计算所有单词的缩写的规则/算法）

【讨论】：

感谢您的回复。实际上，我正在制作一个与您的答案类似的算法。 1. 但是，我放弃了，因为如果我将阈值设置得较低，它总是给我假阴性，如果设置得太高，它总是给我假阳性。那我就改进一下吧。