【问题标题】:dask read multiple parquet files with different schemasdask 读取具有不同模式的多个镶木地板文件
【发布时间】:2020-01-06 18:43:16
【问题描述】:

我想用 dask 将具有不同方案的多个 parquet 文件读取到 pandas 数据帧,并能够合并方案。当我谈论不同的方案时,我的意思是,所有这些文件中都有共同的列,但在某些文件中,有些列在其他文件中不存在。

不幸的是,当我用

读取文件时

dd.read_parquet(my_parquet_files, engine="fastparquet")

我只阅读了常见的列。我知道在 spark 中有一个读取选项mergeSchema,我想知道在 dask 中是否有一种简单的方法可以做到这一点?

【问题讨论】:

  • 嗨 Ansrew_457,你试过d6stack吗?

标签: python dataframe dask parquet fastparquet


【解决方案1】:

我建议单独阅读不同类型的文件,然后将它们与dd.concat 连接起来

dfs = [dd.read_parquet(...) for ... in ...]
df = dd.concat(dfs, axis=0)

然后,Pandas 用于连接具有混合列的数据帧的任何策略都将接管。如果 Pandas 支持这种行为,那么 Dask 数据框可能会支持这种行为。

如果没有,那么听起来您是在请求功能请求,在这种情况下,您可能应该在 https://github.com/dask/dask/issues/new 提出问题

【讨论】:

    猜你喜欢
    • 2019-02-24
    • 1970-01-01
    • 1970-01-01
    • 2019-10-11
    • 2020-09-09
    • 2018-12-28
    • 1970-01-01
    • 2018-06-28
    • 2020-07-27
    相关资源
    最近更新 更多