【问题标题】:Can I filter a parquet table?我可以过滤镶木地板吗?
【发布时间】:2021-08-09 13:11:48
【问题描述】:

我刚开始查看 parquet 文件,因为我的一些数据可以采用这种格式。而且我以前没有真正玩过它,所以这是我的问题。

我这样打开我的镶木地板文件:

import pyarrow.parquet as pq

table1 = pq.read_table('mydatafile.parquet')

这个文件由 10 列组成。现在是否可以直接从这里过滤掉所有行,例如column3 的值为 1?

我的意思是,我可以这样做:

df = table1.to_pandas()
df = df[df["column3"] != 1] 

但是这可以在本地完成,而无需先转换为 Pandas 数据框吗?

【问题讨论】:

    标签: python parquet


    【解决方案1】:

    您可以在documentation 中使用此语法

    import pyarrow.parquet as pq
    
    table1 = pq.read_table('mydatafile.parquet', filters = [('column3',  '!=' , 1)])
    

    来源:

    Using predicates to filter rows from pyarrow.parquet.ParquetDataset

    【讨论】:

      猜你喜欢
      • 2022-11-27
      • 1970-01-01
      • 1970-01-01
      • 2020-03-14
      • 1970-01-01
      • 2016-07-04
      • 1970-01-01
      • 1970-01-01
      • 2021-08-17
      相关资源
      最近更新 更多