【问题标题】:oozie: running hundreds of job paralleloozie:并行运行数百个作业
【发布时间】:2017-10-19 15:51:10
【问题描述】:

最初我们有五个表要处理,因此我们为 5 个表创建了 fork,如下所示。但现在我们需要并行处理 125 个表。如果我分叉所有 125 个表,workflow.xml 会变得更大并且无法维护。如何配置工作流以并行处理所有 125 个表。

<start to="fork-966"/>
<fork name="fork-966">
    <path start="table1_sqoop" />
    <path start="table2_sqoop" />
    <path start="table3_sqoop" />
    <path start="table4_sqoop" />
    <path start="table5_sqoop" />
</fork>

帮助表示赞赏。

【问题讨论】:

    标签: hadoop oozie cloudera-cdh


    【解决方案1】:

    听起来像 125 可能不是极限......

    另外,如果您需要阅读 125 个表格,我建议您重新考虑您的设计。

    对于您当前的问题,您可以执行以下操作之一:

    1. 分叉 125 次
    2. 包括子工作流程。这可以是参数'
    3. 创建运行 125 个工作流的包,因此您只需编写一次 wf',并且包可以重新运行 125 次。此外,如果一个失败,其余的仍在运行

    再次 - 我认为你需要重新考虑你的设计

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2015-05-31
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2014-02-22
      • 1970-01-01
      相关资源
      最近更新 更多