【发布时间】:2013-06-14 06:13:29
【问题描述】:
我刚刚获得了一大组文本文件(总共 8 GB),其中包含美国境内的所有地址范围。该文件集包括:
929 个 ZIP+4 文件,每个文件包含唯一的邮政地址 三位数的邮政编码。例如,文件 606 将仅包含 具有以 606 开头的五位数邮政编码的地址。 这些文件中的记录总数约为 30 百万。
城市状态文件,包含邮政编码和 他们对应的城市和州。
City State Key 可用于将 City State 文件加入 ZIP+4 文件。
鉴于数据库的规模和我缺乏经验,我想在开始这项工作之前获得一些见解。 ZIP+4 文件应该合并成一个怪物文件,然后使用邮政编码进行索引,还是用三位邮政编码分隔,以便将三位邮政编码文件名用作块匹配标准?如果是后者,那这不是分层数据库模型吗?我可以使用分层模型来适应与 City State 文件的关系吗?
上面对数据集的描述是一个巨大的简化,但出于这个问题的目的,没有必要进行详细的描述。完整的描述可以在here 找到。
我正在使用 Python,但尚未决定使用 RDBMS。任何帮助将不胜感激!
【问题讨论】:
标签: python database-design postal-code