【问题标题】:Efficiently read big csv file by parts using Dask使用 Dask 分部高效读取大型 csv 文件
【发布时间】:2020-06-29 13:33:58
【问题描述】:

现在我正在使用 Dask 读取大的 csv 文件并对其进行一些后处理(例如,做一些数学运算,然后通过一些 ML 模型进行预测并将结果写入数据库)。 避免将所有数据加载到内存中,我想按当前大小的块读取:读取第一个块,预测,写入,读取第二个块等。

我使用skiprowsnrows 尝试了下一个解决方案:

import dask.dataframe as dd
read_path = "medium.csv"

# Read by chunk
skiprows = 100000
nrows = 50000
res_df = dd.read_csv(read_path, skiprows=skiprows)
res_df = res_df.head(nrows)

print(res_df.shape)
print(res_df.head())

但我得到错误:

ValueError:样本不够大,无法包含至少一行 数据。请在调用中增加sample 中的字节数 read_csv/read_table

此外,据我了解,它每次都会计算二进制掩码 ([False, False, ... , True, ...]) 以查找要加载的所有数据的行。我们怎样才能更有效地做到这一点? 也许使用 dask 的一些分布式或延迟函数?

【问题讨论】:

    标签: python csv dask dask-dataframe


    【解决方案1】:

    Dask dataframe 会为你分区数据,你不需要使用nrows/skip_rows

    df = dd.read_csv(filename)
    

    如果你想挑选一个特定的分区,那么你可以使用分区访问器

    part = df.partitions[i]
    

    但是,您可能还希望并行应用您的函数。

    df.map_partitions(process).to_csv("data.*.csv")
    

    【讨论】:

      猜你喜欢
      • 2019-07-24
      • 1970-01-01
      • 2021-04-29
      • 2018-02-02
      • 1970-01-01
      • 1970-01-01
      • 2021-06-29
      • 2021-09-02
      • 1970-01-01
      相关资源
      最近更新 更多