跨数据库匹配专有名称的建议答案

【问题标题】：Suggestions for matching proper names across databases跨数据库匹配专有名称的建议
【发布时间】：2013-03-09 05:20:04
【问题描述】：

是否有在数据库设置中处理专有名称的指南。我有 2 个以专有名称作为主键的数据集，但是这两个数据集的格式存在很大差异。此外，由于各种姓氏样式和连字符，甚至很难确定名字、中间名和姓氏。

我正在辩论从头开始重新创建数据，但不知道处理名称的最佳实践是什么（即我应该使用 first、middle、last 还是将中间与 last 合并等），这已经够糟糕了.)？

任何建议都会对我的理智有好处。谢谢。

【问题讨论】：

首先如何使用名称作为主键？仅在美国就有数千个“约翰史密斯”，您肯定会在某个时候发生碰撞。
没有标准的名称格式。冰岛人通常有你名字的一部分。在许多欧洲国家，您的名字有四五个部分并不少见。强迫人们使用“名字”、“中间”和“姓氏”只会激怒很多人。
如果您要从头开始重新创建，请在单独的字段中创建一个独立的（最好是整数）主键和所有名称组件：First、Middle、Last 和（如果您想花哨）Prefix 和 Suffix。

【解决方案1】：

是的 - 指南是。不要这样做。您可以简单地创建一个 UNIQUE 列，使名称 + 新的唯一 id 列成为唯一的，请记住，这不是全局的，这取决于您的环境。

否则，您可能需要使用名称 + zip + dob +/- 唯一 ID 之类的东西。

在处理这些表格时，这将为您提供更好的回旋处。此外，如果这是您参与的项目，您可能需要考虑向您的主管提出数据库设计问题。因为这不是一个好习惯......

【讨论】：