【发布时间】:2011-08-11 13:57:00
【问题描述】:
假设我有四个大文件(太大而无法单独放入内存),其中包含我需要处理的信息。我打算从文件#1 中的每一行生成一个应用程序级对象(记录)。文件 2-4 每个都有组成此 Record 对象所需的附加信息。例如,文件结构可能如下:
文件 #1:
密钥、描述
文件 #2:
密钥、元数据、大小
文件 #3:
来源、速率、键
文件 #4:
key、startDate、endDate
每个文件都有一个代表唯一键的列(在一行中的已知位置)。此密钥在文件之间共享,但不能保证任何一个文件中存在的每个密钥都存在于其他文件中,这意味着我们只会处理所有文件中存在的密钥子集。文件的行未排序。您能否设计一种算法来通过处理这些文件来生成应用程序级对象?
【问题讨论】:
标签: algorithm memory join merge large-files