【发布时间】:2021-11-21 12:28:51
【问题描述】:
我有一堆 parquet 文件,每个文件都包含我的数据集的一个子集。假设文件名为data-N.parquet,N 是一个整数。
我可以全部阅读它们并随后转换为 pandas 数据框:
files = glob.glob("data-**.parquet")
ds = pq.ParquetDataset(
files,
metadata_nthreads=64,
).read_table(use_threads=True)
df = ds.to_pandas()
这很好用。它希望在最终数据框中增加一列,指示数据来自哪个文件。
据我了解,ds 数据是分区的,每个文件一个分区。因此,需要在数据框中包含分区键。
这可行吗?
【问题讨论】:
-
如果它是一个对您有用的功能,它似乎会成为一个好的 JIRA。大部分基础工作都是为了启用该功能。
-
@Pace 感谢您的建议,这里是:issues.apache.org/jira/browse/ARROW-14176。
标签: python parquet pyarrow apache-arrow