【发布时间】:2011-01-03 08:46:01
【问题描述】:
我有两组文件,其中包含 CSV 格式的数据和一个公用键(时间戳) - 我需要按时间顺序浏览所有记录。
-
A 组:“环境数据”
- 文件名的格式为 A_0001.csv、A_0002.csv 等。
- 预排序升序
- 键是时间戳,即YYYY-MM-DD HH:MM:SS
- 包含 CSV/列格式的环境数据
- 非常大,数 GB 的数据
-
B 组:“事件数据”
- 文件名的格式为 B_0001.csv、B_0002.csv
- 预排序升序
- 键是时间戳,即YYYY-MM-DD HH:MM:SS
- 包含 CSV/列格式的基于事件的数据
- 与 A 组文件相比相对较小,
什么是最好的方法?
- 预合并:使用各种方法之一将文件合并为单个排序输出,然后读取它以进行处理
- 实时合并:实现代码以实时“合并”文件
我将对事物的后处理方面进行大量迭代。有什么想法或建议吗?我正在使用 Python。
【问题讨论】:
-
A、B文件编号是否对应?
-
是否每个A文件都有一个B文件,反之亦然?文件 X_000i.csv 中的所有时间戳是否早于 (A, B) 和 i
-
A 组文件有数百个,B 组文件很少。每种文件中的数据/记录在记录随时间的分布方面是随机的。但是,A 组的记录数量非常多,因此通常会涵盖每个时间戳,但 B 组的记录数量要少得多,因此记录分布广泛。