【问题标题】:pyarrow read_table has no 'parquet version' parameterpyarrow read_table 没有“镶木地板版本”参数
【发布时间】:2019-07-26 11:58:17
【问题描述】:

使用 pyarrow 我可以编写 2.0 版的 parquet 文件。

pyarrow.parquet.write_table 方法有参数“version”。但是 pyarrow.parquet.read_table 方法没有参数“version”。而且似乎只能读取 1.0 版本的 parquet 文件。

如何用pyarrow读取2.0版本的parquet文件?

【问题讨论】:

    标签: python pandas parquet pyarrow


    【解决方案1】:

    pyarrow.parquet.read_table 可以自动读取为 Parquet 2.0 版编写的文件。无需设置参数,可以通过读取给定 Parquet 文件的元数据来检测。

    在您的具体情况下,由于您没有在问题中包含任何回溯,因此很难准确回答为什么读取似乎不起作用。

    【讨论】:

    • 请注意,我们正在编写的 2.0 版文件实际上已损坏,因为我们错误地编写了 DataPageV2 格式。见issues.apache.org/jira/browse/PARQUET-458
    • 出于同样的原因,我们也无法读取由正确 Parquet 实现编写的 V2 文件。
    猜你喜欢
    • 1970-01-01
    • 2021-03-03
    • 2015-05-30
    • 2021-01-13
    • 2018-08-08
    • 2019-02-05
    • 2021-12-06
    • 2018-05-06
    • 2021-08-27
    相关资源
    最近更新 更多