【问题标题】:How to filter records from a Parquet file using Python pyarrow如何使用 Python pyarrow 从 Parquet 文件中过滤记录
【发布时间】:2019-01-06 14:26:06
【问题描述】:

我正在尝试从 parquet 文件中过滤特定记录。我正在使用 python pyarrow。 我设法用熊猫做到了(见下面的代码)。大型镶木地板文件占用大量内存的问题。我正在寻找其他选择 - 有什么想法吗?

谢谢。

df = pq.read_table(INPUT_FILE).to_pandas()
df.query("id not in (%s)" % str(IDS_TO_FILTER)[1:-1], inplace=True)
pq.write_table(pa.Table.from_pandas(df), OUTPUT_FILE)

【问题讨论】:

    标签: python parquet apache-arrow


    【解决方案1】:

    如果您的 parquet 文件已分区,则您可以使用 filter keyword argument to ParquetDataset 按分区过滤。因此,在这种特殊情况下,如果您的 parquet 文件按 id 分区,它将起作用。

    【讨论】:

      猜你喜欢
      • 2020-03-27
      • 1970-01-01
      • 2018-08-16
      • 1970-01-01
      • 2020-02-25
      • 1970-01-01
      • 2020-01-18
      • 1970-01-01
      • 2021-03-26
      相关资源
      最近更新 更多