【问题标题】:Skip metadata for large binary fields in fastparquet跳过 fastparquet 中大型二进制字段的元数据
【发布时间】:2019-11-25 15:07:45
【问题描述】:

如果数据集有一列包含大量二进制数据(例如图像或声波数据),那么计算该列的最小/最大统计数据在计算和存储要求方面都会变得昂贵,尽管完全无用(查询这些值按范围显然没有意义)。

这会导致大型、高度分区的 Parquet 数据集的元数据呈爆炸式增长。有没有办法告诉 fastparquet计算某些列的统计信息,或者 Parquet 格式是否要求每个列都存在这些统计信息?

【问题讨论】:

标签: python dask parquet fastparquet


【解决方案1】:

这是在 stale PR 中实现的,它可以在某个时候合并(它破坏了与 py2 的兼容性),或者可以提取相关部分。 PR 向作者提供了一个 stats= 参数,可用于选择哪些列计算了它们的最大/最小值,或者为 True/False 选择 all/none。

【讨论】:

    猜你喜欢
    • 2013-06-09
    • 2022-01-14
    • 2021-07-10
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-01-02
    • 1970-01-01
    相关资源
    最近更新 更多