【问题标题】:Using airflow for real time job orchestration使用气流进行实时工作编排
【发布时间】:2018-07-20 20:41:53
【问题描述】:

我有一个作为 Web 服务运行的应用程序,它根据用户请求向 Spark 提交作业。需要限制每个用户的作业队列。我计划使用 Airflow 作为编排框架来管理作业队列,但是虽然它支持并行 DAG 执行,但它针对批处理而不是实时进行了优化。 Airflow 是否旨在通过多个队列(每个用户一个)处理每秒约 200 次 DAG 执行,还是我应该寻找替代方案?

【问题讨论】:

    标签: airflow orchestration


    【解决方案1】:

    您是否将数据从一项任务转移到另一项任务?自从您提到实时以来,时间在这里是否重要。使用 Airflow,预计工作流程大部分是静态的或缓慢变化的。主要用于 ETL 批处理,您可以加快气流心跳,但最好有一个 POC 与您的用例进行测试。
    以下来自Airflow官方文档:https://airflow.apache.org/#beyond-the-horizon

    Airflow 不是数据流解决方案。任务不会从 一个到另一个(尽管任务可以交换元数据!)。气流不 在 Spark Streaming 或 Storm 空间中,更可与 Oozie 相媲美 或者阿兹卡班

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2019-04-21
      • 2022-12-11
      • 2018-12-14
      • 2012-05-11
      • 1970-01-01
      • 1970-01-01
      • 2021-07-16
      • 2020-03-13
      相关资源
      最近更新 更多