【发布时间】:2019-05-17 16:03:10
【问题描述】:
我有一个包含许多小行组的大型 Parquet 文件。我想生成一个带有单个(更大)行组的新 Parquet 文件,并且我正在使用 Python 进行操作。我可以这样做:
import pyarrow.parquet as pq
table = pq.read_table('many_tiny_row_groups.parquet')
pq.write_table(table, 'one_big_row_group.parquet')
# Lots of row groups...
print (pq.ParquetFile('many_tiny_row_groups.parquet').num_row_groups)
# Now, only 1 row group...
print (pq.ParquetFile('one_big_row_group.parquet').num_row_groups)
但是,这需要我一次将整个 Parquet 文件读入内存。我想避免这样做。是否有某种“流式处理”方法可以保持较小的内存占用?
【问题讨论】:
标签: python memory compression parquet