【发布时间】:2019-11-25 15:07:45
【问题描述】:
如果数据集有一列包含大量二进制数据(例如图像或声波数据),那么计算该列的最小/最大统计数据在计算和存储要求方面都会变得昂贵,尽管完全无用(查询这些值按范围显然没有意义)。
这会导致大型、高度分区的 Parquet 数据集的元数据呈爆炸式增长。有没有办法告诉 fastparquet不计算某些列的统计信息,或者 Parquet 格式是否要求每个列都存在这些统计信息?
【问题讨论】:
-
注意:使用最新版本的 pyarrow (>= 0.14) 可以通过指定
write_statistics关键字来实现。见arrow.apache.org/docs/python/generated/…
标签: python dask parquet fastparquet