【问题标题】:Suggestions for matching proper names across databases跨数据库匹配专有名称的建议
【发布时间】:2013-03-09 05:20:04
【问题描述】:

是否有在数据库设置中处理专有名称的指南。我有 2 个以专有名称作为主键的数据集,但是这两个数据集的格式存在很大差异。此外,由于各种姓氏样式和连字符,甚至很难确定名字、中间名和姓氏。

我正在辩论从头开始重新创建数据,但不知道处理名称的最佳实践是什么(即我应该使用 first、middle、last 还是将中间与 last 合并等),这已经够糟糕了.)?

任何建议都会对我的理智有好处。谢谢。

【问题讨论】:

  • 首先如何使用名称作为主键?仅在美国就有数千个“约翰史密斯”,您肯定会在某个时候发生碰撞。
  • 没有标准的名称格式。冰岛人通常有你名字的一部分。在许多欧洲国家,您的名字有四五个部分并不少见。强迫人们使用“名字”、“中间”和“姓氏”只会激怒很多人。
  • 如果您要从头开始重新创建,请在单独的字段中创建一个独立的(最好是整数)主键和所有名称组件:FirstMiddleLast 和(如果您想花哨)PrefixSuffix

标签: mysql sql sql-server r


【解决方案1】:

是的 - 指南是。不要这样做。您可以简单地创建一个 UNIQUE 列,使名称 + 新的唯一 id 列成为唯一的,请记住,这不是全局的,这取决于您的环境。

否则,您可能需要使用名称 + zip + dob +/- 唯一 ID 之类的东西。

在处理这些表格时,这将为您提供更好的回旋处。此外,如果这是您参与的项目,您可能需要考虑向您的主管提出数据库设计问题。因为这不是一个好习惯......

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2011-11-28
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-08-29
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多