【问题标题】:How do I stream parquet using pyarrow?如何使用 pyarrow 流式传输镶木地板?
【发布时间】:2018-08-08 23:47:09
【问题描述】:

我正在尝试逐个读取大型镶木地板文件数据集,执行一些操作,然后继续下一个而不将它们全部保存在内存中。我需要这样做,因为整个数据集不适合内存。以前我使用过ParquetDataset,我知道RecordBatchStreamReader,但我不知道如何组合它们。

我如何使用 Pyarrow 来做到这一点?

【问题讨论】:

    标签: parquet pyarrow


    【解决方案1】:

    目前,Parquet API 仅支持对单个文件的完整读取,因此我们只能将读取限制在单个文件的粒度。我们想创建一个从 Parquet 文件中读取的arrow::RecordBatchReader(流数据接口)的实现,请参阅https://issues.apache.org/jira/browse/ARROW-1012。补丁将受到欢迎。

    【讨论】:

      猜你喜欢
      • 2016-06-16
      • 2021-12-06
      • 2016-05-28
      • 2018-04-17
      • 2018-05-06
      • 2021-08-27
      • 2021-10-28
      • 1970-01-01
      • 2019-10-27
      相关资源
      最近更新 更多