【问题标题】:Max limit of oozie workflowsoozie 工作流程的最大限制
【发布时间】:2020-03-03 21:37:59
【问题描述】:

有人知道可以并行执行的 oozie 工作流的最大限制是多少吗?

我正在并行运行 35 个工作流(或者这就是 oozie UI 提到的,它们都是并行启动的)。所有子工作流都执行从本地到 HDFS 的文件摄取,并从今以后对文件的元数据进行一些验证检查。就这么简单。

但是,我看到一些子工作流在执行过程中失败了;他们失败的步骤尝试将文件放入 HDFS 位置,即该进程无法执行 hdfs dfs -put 命令。但是,当我重新运行这些子工作流时,它们会成功运行。

不确定是什么导致它们在hdfs dfs -put 上执行和失败。

关于可能发生什么的任何线索/建议?

【问题讨论】:

  • 如果hdfs 命令失败而没有吐出错误堆栈,我会感到非常惊讶。那么你在 YARN 日志中看到了什么?
  • 顺便说一句,到目前为止,Oozie 的最大用户是 Yahoo! ——事实上,他们开发了该工具来每天和每个集群管理数以万计的大量作业。所以 Oozie 的规模可以超越你最疯狂的梦想。限制是 YARN 和 HDFS 中可用的资源......

标签: hadoop hdfs oozie oozie-workflow


【解决方案1】:

第一个限制不取决于 Oozie,而是取决于 YARN 中可用于执行 Oozie 操作的资源,因为每个操作都在一个地图中执行。但是这个限制不会使您的工作流程失败:他们只会等待资源。

我们遇到的导致麻烦的主要限制是 oozie 服务的可调用队列。有时,在大量协调员提交大量工作流造成的繁重负载下,Oozie 在处理其内部可调用队列时比运行工作流浪费了更多时间:/ 检查 oozie.service.CallableQueueService 设置以获取相关信息。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-08-24
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多