【发布时间】:2020-01-06 18:43:16
【问题描述】:
我想用 dask 将具有不同方案的多个 parquet 文件读取到 pandas 数据帧,并能够合并方案。当我谈论不同的方案时,我的意思是,所有这些文件中都有共同的列,但在某些文件中,有些列在其他文件中不存在。
不幸的是,当我用
读取文件时dd.read_parquet(my_parquet_files, engine="fastparquet")
我只阅读了常见的列。我知道在 spark 中有一个读取选项mergeSchema,我想知道在 dask 中是否有一种简单的方法可以做到这一点?
【问题讨论】:
-
嗨 Ansrew_457,你试过d6stack吗?
标签: python dataframe dask parquet fastparquet