【问题标题】:Can Spark jobs be scheduled through Airflow可以通过 Airflow 安排 Spark 作业吗
【发布时间】:2020-09-21 05:42:52
【问题描述】:

我是 spark 新手,需要澄清我的一些疑问。

  1. 我可以通过 Airflow 安排 Spark 作业吗
  2. 我的 Airflow (Spark) 作业处理存在于 S3 存储桶中的原始 csv 文件,然后转换为 parquet 格式,将其存储到 S3 存储桶中,然后在完全处理后最终存储到 Presto Hive。最终用户连接到 Presto 并查询数据以创建可视化。

这些处理后的数据是否可以仅存储在 Hive 或 Presto 中,以便用户可以连接到 Presto 或 Hive 并相应地对数据库执行查询。

【问题讨论】:

    标签: pyspark airflow-scheduler


    【解决方案1】:

    你总是可以spark_submit_operator 安排和提交您的 Spark 作业,或者您可以使用 bash operator 您可以在其中使用 spark-submit bash 命令安排和提交 Spark 作业。

    对于第二个问题,在 spark 创建 parquet 文件后,您可以使用 spark(相同的 spark 实例)将其写入 hive 或 presto。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2020-11-03
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多