【问题标题】:Suggestion for scheduling tool(s) for building hadoop based data pipelines用于构建基于 hadoop 的数据管道的调度工具的建议
【发布时间】:2016-03-01 21:03:20
【问题描述】:

在 Apache Oozie、Spotify/Luigiairbnb/airflow 之间,它们各自的优缺点是什么?

我过去曾使用 oozie 和气流来构建使用 PIG 和 Hive 的数据摄取管道。目前,我正在构建一个查看日志并提取有用事件并将它们置于红移状态的管道。

我发现气流更易于使用/测试/设置。它有一个更酷的 UI,并允许用户从 UI 本身执行操作,而 Oozie 则不是这样。欢迎提供有关 Luigi 的任何信息或其他有关稳定性和问题的见解。

【问题讨论】:

标签: hadoop amazon-redshift oozie luigi airflow


【解决方案1】:
  • Azkaban:漂亮的 UI,相对简单,非程序员也可以使用。在 LinkedIn 有着悠久的历史。
  • Airflow:体面的 UI,Python 式的作业定义,非程序员半可访问,依赖声明语法很奇怪。
  • Luigi:好的 UI,工作流是纯 Python,需要扎实掌握 Python 编码和面向对象的概念,因此不适合非程序员。
  • Oozie:疯狂的基于 XML 的作业定义。这里是龙。 ;-)

恕我直言,Azkaban 强调简单性(不能使用不存在的功能),而其他人则巧妙地鼓励复杂性。

更简单的管道比复杂的管道更好:更容易创建、更容易理解(尤其是在你没有创建的时候)并且更容易调试/修复。

当需要复杂的操作时,您希望以完全成功或完全失败的方式封装它们。

如果你可以让它具有幂等性(再次运行它会产生相同的结果)那就更好了。

【讨论】:

    【解决方案2】:

    这篇文章将让您初步了解不同的可能工作流程

    http://bytepawn.com/luigi-airflow-pinball.html

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2011-05-07
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-01-19
      • 1970-01-01
      • 2019-08-02
      相关资源
      最近更新 更多