【发布时间】:2021-01-08 08:13:05
【问题描述】:
使用 fastparquet 从 S3 读取文件时,我没有得到任何统计信息(最小值/最大值)。 调用时
fp.ParquetFile(fn=path, open_with=myopen).statistics['min']
大部分值为None,部分值有效。
但是,当我使用其他框架读取同一文件时,我能够获得所有值的正确最小值/最大值。
如何获取所有统计信息? 谢谢
【问题讨论】:
标签: dask fastparquet
使用 fastparquet 从 S3 读取文件时,我没有得到任何统计信息(最小值/最大值)。 调用时
fp.ParquetFile(fn=path, open_with=myopen).statistics['min']
大部分值为None,部分值有效。
但是,当我使用其他框架读取同一文件时,我能够获得所有值的正确最小值/最大值。
如何获取所有统计信息? 谢谢
【问题讨论】:
标签: dask fastparquet
完整的行组集以列表形式提供
pf = fp.ParquetFile(fn=path, open_with=myopen)
pf.row_groups
并且每个行组都有一个.columns属性,而这些属性又具有meta_data;因此您可以四处挖掘以查看各个列的最小/最大值是什么。
【讨论】: