【发布时间】:2012-09-27 20:31:38
【问题描述】:
我有一个涉及读取大文件的问题需要解决,我对如何处理它有一个大致的了解,但希望看到它可能有更好的方法。
问题如下:我有几个巨大的磁盘文件(每个64GB),每个文件都填充了2.5KB 的记录(大约25,000,000 的记录总数)。除其他字段外,每条记录都有一个 timestamp 和一个指示时间戳是否有效的 isValid 标志。当用户输入时间跨度时,我需要返回时间戳在指定范围内的所有记录。
数据的布局是这样的,对于所有标记为“有效”的记录,时间戳单调增加。根本不应考虑无效记录。所以,这就是文件通常的样子(尽管范围要大得多):
a[0] = { Time=11, IsValid = true };
a[1] = { Time=12, IsValid = true };
a[2] = { Time=13, IsValid = true };
a[3] = { Time=401, IsValid = false }; // <-- should be ignored
a[4] = { Time=570, IsValid = false }; // <-- should be ignored
a[5] = { Time=16, IsValid = true };
a[6] = { Time=23, IsValid = true }; // <-- time-to-index offset changed
a[7] = { Time=24, IsValid = true };
a[8] = { Time=25, IsValid = true };
a[9] = { Time=26, IsValid = true };
a[10] = { Time=40, IsValid = true }; // <-- time-to-index offset changed
a[11] = { Time=41, IsValid = true };
a[12] = { Time=700, IsValid = false }; // <-- should be ignored
a[13] = { Time=43, IsValid = true };
如果时间戳和计数器之间的偏移量是恒定的,则查找第一条记录将是 O(1) 操作(我会直接跳转到索引)。既然不是,我正在寻找一种不同的方法来(快速)找到这些信息。
一种方法可能是修改后的二进制搜索,但我不完全确定如何处理更大的无效记录块。我想我也可以创建一个“索引”来加快查找速度,但是由于会有很多这样的大文件,并且提取的数据大小会比整个文件小得多,我不想遍历这些文件中的每一个,逐条记录,生成索引。我在想,在构建索引时,二分搜索是否也有帮助。
更不用说我不确定索引的最佳结构是什么。平衡二叉树?
【问题讨论】:
-
您希望找到的无效记录块有多大?
-
@Joni:不应该超过一分钟(这是中值情况),但我可以忍受一些边缘情况下的性能下降,只要平均速度快。
标签: algorithm large-files binary-search