【发布时间】:2020-05-19 06:49:55
【问题描述】:
我有一个包含小 parquet 文件 (600) 的目录,我想对这些 parquet 进行 ETL 并将这些 parquet 合并到每个文件 128mb。什么是处理数据的最佳方式。
我应该读取 parquet 目录中的每个文件并将其作为单个数据框连接并执行 groupBY 吗?或者向 dd.read_parquet 提供 parquet 目录名称并进行处理?
我觉得,当我逐个文件读取文件时,它会创建一个非常大的 dask 图,无法作为图像显示。 我想它也适用于这么多线程?这会导致内存错误。
哪种方式最好读取 parquet 文件以作为 dask 数据帧处理?逐个文件还是提供整个目录??
【问题讨论】:
-
请提供mcve。
标签: python dask parquet pyarrow dask-dataframe