【发布时间】:2016-05-16 01:42:39
【问题描述】:
我正在使用一个 20GB(压缩)的 .csv 文件,并使用带有 chunksize=10,000 参数的 pandas pd.read_csv() 从中加载几列。
但是,这个参数是完全任意的,我想知道一个简单的公式是否可以给我更好的块大小来加速数据的加载。
有什么想法吗?
【问题讨论】:
-
配置文件并找出答案。
-
也许有一些通用公式,例如数据集大小的 1/10 或类似的东西(总 RAM 等)
-
根据我的回答,chunksize=10,000 只是每个块的 行数,而不是 memory-size。
-
“我使用
pd.read_csv(chunksize...)从中加载了几列” 你的意思是你加载行吗?您是否还意味着您删除了一些或大部分列?在这种情况下,您感兴趣的部分实际上不再是 20Gb 压缩文件。
标签: python pandas memory io chunks