【发布时间】:2014-03-03 16:18:45
【问题描述】:
我必须替换大型 CSV 文件中的值,并决定使用 Python 作为我要使用的编程语言。
我需要更改的值是逗号分隔 CSV 中每一行的第一个值:
ToReplace, a1, a2, ..., aN
1, ab, cd, ..., xy
80, ka, kl, ..., df
它总是一个数字,但数字的数量不固定。
我目前有两个想法:逐行处理数据和...
- 使用正则表达式匹配数字
- 使用 CSV 组件解析行
由于我对 Python 很陌生,所以我想到了一些问题:
- 考虑到文件的大小(> 50GB;~ 1000 万行),哪种方法更快?
- 如何在不浪费大量资源的情况下实现它?
【问题讨论】:
-
旁白:50 GB 的文件太大,无法以 CSV 等平面格式保存。切换到数据库或至少将文件拆分为更易于管理的文件(例如 500 个 100MB 文件)
-
这正是我需要处理文件的原因,以便我可以快速干净地将其放入数据库中