哪种方式最好读取镶木地板文件以作为 dask 数据帧处理答案

【问题标题】：which way is best to read the parquet file to process as dask dataframe哪种方式最好读取镶木地板文件以作为 dask 数据帧处理
【发布时间】：2020-05-19 06:49:55
【问题描述】：

我有一个包含小 parquet 文件 (600) 的目录，我想对这些 parquet 进行 ETL 并将这些 parquet 合并到每个文件 128mb。什么是处理数据的最佳方式。

我应该读取 parquet 目录中的每个文件并将其作为单个数据框连接并执行 groupBY 吗？或者向 dd.read_parquet 提供 parquet 目录名称并进行处理？

我觉得，当我逐个文件读取文件时，它会创建一个非常大的 dask 图，无法作为图像显示。我想它也适用于这么多线程？这会导致内存错误。

哪种方式最好读取 parquet 文件以作为 dask 数据帧处理？逐个文件还是提供整个目录？？

【问题讨论】：

请提供mcve。

标签： python dask parquet pyarrow dask-dataframe

【解决方案1】：

不幸的是，没有一种最佳方法可以在所有情况下读取 Parquet 文件。为了正确回答问题，您需要更多地了解您的情况。

【讨论】：