【问题标题】:Running luigi pipeline with different parameters simultaneously同时运行具有不同参数的 luigi 管道
【发布时间】:2019-10-24 11:31:41
【问题描述】:

也许这是一个有点愚蠢的问题。我使用 luigi 和 python 编写了一个数据管道,它获取一些文件,清理它,并运行一个 Monte Carlo Markov Chain 模型。我需要多次运行这个模型(25 次不同参数的模拟)。在我的笔记本电脑上运行一次模拟大约需要 3-5 个小时。有没有办法同时运行多个模拟(我假设这受硬件限制)或安排模拟在第一个完成后运行,问题是输出文件将具有相同的名称,我假设这意味着在第一个模拟之后运行的每个模拟都将被标记为完成,直到我删除这些输出文件

【问题讨论】:

    标签: python luigi


    【解决方案1】:

    当然可以。你只需要有一个根调度任务,如下所述:https://luigi.readthedocs.io/en/stable/luigi_patterns.html#triggering-many-tasks

    基本上,您只需创建一个具有 25 组不同参数的根任务,并且需要您的工作流使用这些参数。

    编辑:如果您需要先运行一项任务,只需在 run 方法中使用 yield Task(params)(不是 requires 方法!)。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2020-03-28
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-08-03
      • 1970-01-01
      • 2021-11-20
      相关资源
      最近更新 更多