【发布时间】:2021-08-25 21:11:52
【问题描述】:
将通过 pyarrow 存储的下表放入 Apache Parquet:
| id | regions | |
|---|---|---|
| 0 | A | ['us', 'uk'] |
| 1 | B | ['uk', 'mx'] |
我想在加载数据时通过 parquet 过滤区域列。像这样的:
import pyarrow.dataset as ds
dataset = ds.dataset("./example.parquet", format="parquet")
dataset.to_table(filter=ds.scalar('us').isin(ds.field('region')))
期望我会回到第一行,而不是第二行。
但是,这不起作用。文档没有关于如何执行此类操作的任何有用信息。有没有办法对更复杂的列类型执行过滤器?
【问题讨论】:
标签: parquet pyarrow apache-arrow