【问题标题】:which way is best to read the parquet file to process as dask dataframe哪种方式最好读取镶木地板文件以作为 dask 数据帧处理
【发布时间】:2020-05-19 06:49:55
【问题描述】:

我有一个包含小 parquet 文件 (600) 的目录,我想对这些 parquet 进行 ETL 并将这些 parquet 合并到每个文件 128mb。什么是处理数据的最佳方式。

我应该读取 parquet 目录中的每个文件并将其作为单个数据框连接并执行 groupBY 吗?或者向 dd.read_parquet 提供 parquet 目录名称并进行处理?

我觉得,当我逐个文件读取文件时,它会创建一个非常大的 dask 图,无法作为图像显示。 我想它也适用于这么多线程?这会导致内存错误。

哪种方式最好读取 parquet 文件以作为 dask 数据帧处理?逐个文件还是提供整个目录??

【问题讨论】:

标签: python dask parquet pyarrow dask-dataframe


【解决方案1】:

不幸的是,没有一种最佳方法可以在所有情况下读取 Parquet 文件。为了正确回答问题,您需要更多地了解您的情况。

【讨论】:

    猜你喜欢
    • 2018-12-28
    • 2020-09-18
    • 1970-01-01
    • 1970-01-01
    • 2021-03-26
    • 2020-02-01
    • 2018-06-24
    • 2020-07-27
    • 2020-01-06
    相关资源
    最近更新 更多