交叉引用数据时使用“模糊搜索”答案

【问题标题】：Use of "fuzzy search" when cross-referencing data交叉引用数据时使用“模糊搜索”
【发布时间】：2012-02-10 16:05:09
【问题描述】：

我的部门负责收集和显示来自各种公司内部来源的数据，以用于数据挖掘/公司仪表板。

我们面临的一大挑战是跨部门交叉引用地点名称。我们是一个相当大的组织，具有不同利益的部门对任何一个地点都进行自己的报告。一般来说，在这些部门的报告中，位置名称的确切名称存在很多差异。例如，一个位置可能被称为：

所以我的问题是，在我们自己的数据库和代码中协调这些名称时存在哪些最佳实践？让我们暂时假设我的部门没有能力将组织统一在一个共同的等级标准下（这将是最佳解决方案）。目前，我们的做法是维护不断增长的位置名称参考表，然后将这些参考表重新引用到我们自己的命名标准中。这使我们能够与我们的数据保持历史一致性。

在交叉引用位置时实施某种“模糊搜索”是否可行/可取？例如，可能会忽略“the”等词的实例，或平等对待“cafe”和“restaurant”（基于一些预定义的逻辑）。

我当然认为我们永远无法在算法上解释我们遇到的所有随机命名约定，但是能够解释其中的一些/大部分就足够了吗？

【问题讨论】：

【解决方案1】：

关键字是data-integration。重新标记。模糊搜索在information-retrieval 中很常见，在这里绝对有用。但是您提供的示例对于自动集成可能有点太难了，您需要用户干预和正确的data-cleaning。

我已成功使用模糊匹配重新导入音乐播放列表。甚至来自互联网。标题和艺术家通常会提供足够的数据来对我的音乐收藏进行相当可靠的模糊匹配（至少如果我有这首歌的话）。

但是，如果您本质上只有一个词，那么模糊匹配将不可靠，例如“fabulous restaurant”示例。

良好的模糊匹配将使用词干提取并具有常用词和同义词的概念。所以“餐厅”和“咖啡馆”可能不会被认为是重要的。那么关键是要有足够的数据。一个词可能不足以识别位置。

【讨论】：