【发布时间】:2020-06-03 20:28:26
【问题描述】:
我有 7 个 8 GB 的 csv 文件,需要转换为 parquet。
内存使用量达到 100 GB,我不得不杀死它。 我也尝试过分布式 Dask。内存限制为 12 GB,但长时间没有输出。 供参考。我曾经使用具有 Chunking + Prod 消费者的传统 pandas --> 能够在 30 分钟内转换 Dask 处理缺少什么?
def ProcessChunk(df,...):
df.to_parquet()
for factfile in fArrFileList:
df = dd.read_csv(factfile, blocksize="100MB",
dtype=fColTypes, header=None, sep='|',names=fCSVCols)
result = ProcessChunk(df,output_parquet_file, chunksize, fPQ_Schema, fCSVCols, fColTypes)
【问题讨论】:
-
嗨,我不是很喜欢 python 和 dask,但是加载大文件的问题很常见。看看这里也许pythondata.com/dask-large-csv-python
标签: dask