【发布时间】:2012-02-10 16:05:09
【问题描述】:
我的部门负责收集和显示来自各种公司内部来源的数据,以用于数据挖掘/公司仪表板。
我们面临的一大挑战是跨部门交叉引用地点名称。我们是一个相当大的组织,具有不同利益的部门对任何一个地点都进行自己的报告。一般来说,在这些部门的报告中,位置名称的确切名称存在很多差异。例如,一个位置可能被称为:
- 很棒的餐厅
- 很棒的餐厅
- 很棒的餐饮
- 当该位置进行一些翻新时...... Fabulous Cafe'
- 甚至利润中心12345ABC
所以我的问题是,在我们自己的数据库和代码中协调这些名称时存在哪些最佳实践?让我们暂时假设我的部门没有能力将组织统一在一个共同的等级标准下(这将是最佳解决方案)。目前,我们的做法是维护不断增长的位置名称参考表,然后将这些参考表重新引用到我们自己的命名标准中。这使我们能够与我们的数据保持历史一致性。
在交叉引用位置时实施某种“模糊搜索”是否可行/可取?例如,可能会忽略“the”等词的实例,或平等对待“cafe”和“restaurant”(基于一些预定义的逻辑)。
我当然认为我们永远无法在算法上解释我们遇到的所有随机命名约定,但是能够解释其中的一些/大部分就足够了吗?
【问题讨论】:
-
有可能,但是否足够好?这将取决于商界人士对此的看法。这是一个类似的问题:stackoverflow.com/questions/1983717/…
标签: database-design dashboard fuzzy-search data-integration record-linkage