【发布时间】:2020-01-30 14:27:15
【问题描述】:
我有一个包含 10 个行组的镶木地板文件:
In [30]: print(pyarrow.parquet.ParquetFile("/tmp/test2.parquet").num_row_groups)
10
但是当我使用 Dask Dataframe 加载它时,它会被读入单个分区:
In [31]: print(dask.dataframe.read_parquet("/tmp/test2.parquet").npartitions)
1
这似乎与 this answer 相矛盾,后者指出 Dask Dataframe 将每个 Parquet 行组读入一个单独的分区。
如何使用 Dask Dataframe 将每个 Parquet 行组读入单独的分区?还是必须将数据分布在不同的文件中才能正常工作?
【问题讨论】:
标签: python dataframe dask parquet