【问题标题】:Running pipelines with data parallellization运行具有数据并行化的管道
【发布时间】:2019-11-19 16:26:38
【问题描述】:

我一直在运行 kedro 教程(hello world 和太空飞行),我想知道是否可以轻松地使用 Kedro 进行数据并行化。 想象一下,我有一个节点需要在数百万个文件中执行。

我似乎有kedro run -p 选项,但这仅执行任务并行化(如此处所述https://kedro.readthedocs.io/en/latest/03_tutorial/04_create_pipelines.html)。

感谢您的任何反馈

【问题讨论】:

  • 我遇到了类似的问题。我有一个节点可以接收许多数据集并将它们联合起来。如果 kedro 可以在后台延迟加载所有输入,然后在它们全部解析后继续,那就太好了。

标签: kedro


【解决方案1】:

Kedro 有许多内置的 DataSet 类。对于 IO 并行化,有 SparkDataSet 将 IO 并行化委托给 PySpark https://kedro.readthedocs.io/en/latest/04_user_guide/09_pyspark.html#creating-a-sparkdataset

另一个数据集是 DaskDataSet,但这仍然是这个 PR https://github.com/quantumblacklabs/kedro/pull/97 中的 WIP(如果你想使用 Dask,你可以看看这个 PR 和 create your own custom dataset

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2022-07-15
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多