【问题标题】:Can get correct statistics from fastparquet可以从 fastparquet 获得正确的统计数据
【发布时间】:2021-01-08 08:13:05
【问题描述】:

使用 fastparquet 从 S3 读取文件时,我没有得到任何统计信息(最小值/最大值)。 调用时

fp.ParquetFile(fn=path, open_with=myopen).statistics['min']

大部分值为None,部分值有效。

但是,当我使用其他框架读取同一文件时,我能够获得所有值的正确最小值/最大值。

如何获取所有统计信息? 谢谢

【问题讨论】:

    标签: dask fastparquet


    【解决方案1】:

    完整的行组集以列表形式提供

    pf = fp.ParquetFile(fn=path, open_with=myopen)
    pf.row_groups
    

    并且每个行组都有一个.columns属性,而这些属性又具有meta_data;因此您可以四处挖掘以查看各个列的最小/最大值是什么。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2012-10-19
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-01-18
      • 2019-03-02
      相关资源
      最近更新 更多