【发布时间】:2021-01-10 23:48:34
【问题描述】:
是否有一种解决方法可以通过列索引而不是列名选择性地读取 parquet 文件?
文档显示通过列名读取:
pq.read_table('example.parquet', columns=['one', 'three'])
我正在寻找的是这样的:
pq.read_table('example.parquet', columns=[0, 2])
尝试更新
这是多余的,我不妨用 pandas 或 numpy 删除内存中的列。
desired_cols = [0,2]
pat = pq.read_table('file.parquet.gzip')
cols_names = pat.column_names
del pat
desired_cols = [cols_names[c] for c in desired_cols]
pq.read_table('file.parquet.gzip',columns=desired_cols)
"""
pyarrow.Table
anzsic06: string
year: int64
"""
【问题讨论】: