【问题标题】:ETL using apache pyspark and airflow使用 apache pyspark 和气流的 ETL
【发布时间】:2021-10-07 15:28:27
【问题描述】:

我们正在使用 apache pyspark 和 apache airflow 开发 ETL 工具。 Apache 气流将用于工作流管理。

  1. apache pyspark 能否处理海量数据?
  2. 我可以从 apache 气流中提取、转换计数吗?

【问题讨论】:

    标签: pyspark airflow


    【解决方案1】:
    1. 是的,Apache (Py)Spark 专为处理大数据而构建
    2. 没有现成的神奇解决方案可将指标从 PySpark 导入 Airflow

    #2 的一些解决方案是:

    • 将指标从 PySpark 写入另一个系统(例如数据库、blob 存储等)并在 Airflow 的第二个任务中读取这些指标
    • 从 PySpark 作业返回值并将它们推送到 Airflow XCom

    我的 2c:不要在 Airflow 本身中处理大数据,因为它是为编排而不是数据处理而构建的。如果中间数据变大,请为此使用专用存储系统(数据库、blob 存储等)。 XCom 存储在 Airflow 元存储本身中(尽管自 Airflow 2.0 https://www.astronomer.io/guides/custom-xcom-backends 起支持将数据存储在其他系统中的自定义 XCom 后端),因此如果将数据存储在 Airflow 元存储中,请确保数据不要太大。

    【讨论】:

      猜你喜欢
      • 2021-04-01
      • 2017-12-30
      • 2021-12-09
      • 1970-01-01
      • 2022-01-21
      • 1970-01-01
      • 2021-09-20
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多