【问题标题】:Reading multiple files with Dask使用 Dask 读取多个文件
【发布时间】:2018-10-06 03:19:09
【问题描述】:

我正在尝试简单地并行读取 24 个科学数据文件,每个文件约 250MB,总计约 6GB。数据采用二维数组格式。它存储在并行文件系统上,并从集群中读取,尽管我现在只从单个节点读取。数据的格式类似于 HDF5(称为 Adios),读取方式类似于 h5py 包。读取每个文件大约需要 4 秒。我正在关注此处阅读的 skimage 示例(http://docs.dask.org/en/latest/array-creation.html)。但是,无论有多少工人,我都没有加快速度。我想也许我用错了,也许仍然只使用了 1 个工人,但是当我分析它时,似乎确实有 24 个工人。如何加快读取这些数据的速度?

import adios as ad
import numpy as np
import dask.array as da
import dask

bpread = dask.delayed(lambda f: ad.file(f)['data'][...],pure=True)
lazy_datas = [bpread(path) for path in paths]
sample = lazy_datas[0].compute()

#read in data
arrays = [da.from_delayed(lazy_data,dtype=sample.dtype,shape=sample.shape) for lazy_data in lazy_datas]
datas = da.stack(arrays,axis=0)
datas2 = datas.compute(scheduler='processes',num_workers=24)

【问题讨论】:

    标签: python dask dask-distributed


    【解决方案1】:

    我建议查看调度程序仪表板的/profile 选项卡。这将告诉您哪些代码行占用的时间最多。

    我的第一个猜测是,您的磁盘为您提供数据的能力已经达到极限。您不受 CPU 限制,因此添加更多内核无济于事。不过,这只是一种猜测,与往常一样,您必须进一步分析和调查您的情况才能确定。

    【讨论】:

    • 谢谢,我去看看。我不认为这是最大化磁盘容量。我编写了一个单独的 mpi4py 实现,它能够很好地扩展更多等级。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2020-08-07
    • 2021-05-01
    • 1970-01-01
    • 1970-01-01
    • 2019-07-24
    • 1970-01-01
    • 2018-03-04
    相关资源
    最近更新 更多