【问题标题】:How to specify which columns to load in pyarrow.dataset如何指定在 pyarrow.dataset 中加载哪些列
【发布时间】:2021-06-15 09:27:54
【问题描述】:

我试图只获取我想要的列,就像我们在 pandas 中所做的那样。

use_cols = ["ArrDelay", "DepDelay"]
df = pd.read_csv(path, usecols=use_cols)
df

有没有类似箭头的选项?

dataset = ds.dataset(path, format="csv")

【问题讨论】:

    标签: python-3.x pandas pyarrow apache-arrow


    【解决方案1】:

    我猜你想要的是……

    table = dataset.to_table(columns=["ArrDelay", "DepDelay"])
    

    数据集方法scan()to_batches()to_tables() 都采用相同的参数,这些参数记录在scan() 方法中。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2010-10-31
      • 1970-01-01
      • 2016-03-14
      相关资源
      最近更新 更多