【问题标题】:Can Spark jobs be scheduled through Airflow可以通过 Airflow 安排 Spark 作业吗
【发布时间】:2020-09-21 05:42:52
【问题描述】:
我是 spark 新手,需要澄清我的一些疑问。
- 我可以通过 Airflow 安排 Spark 作业吗
- 我的 Airflow (Spark) 作业处理存在于 S3 存储桶中的原始 csv 文件,然后转换为 parquet 格式,将其存储到 S3 存储桶中,然后在完全处理后最终存储到 Presto Hive。最终用户连接到 Presto 并查询数据以创建可视化。
这些处理后的数据是否可以仅存储在 Hive 或 Presto 中,以便用户可以连接到 Presto 或 Hive 并相应地对数据库执行查询。
【问题讨论】:
标签:
pyspark
airflow-scheduler
【解决方案1】:
你总是可以spark_submit_operator
安排和提交您的 Spark 作业,或者您可以使用 bash operator
您可以在其中使用 spark-submit bash 命令安排和提交 Spark 作业。
对于第二个问题,在 spark 创建 parquet 文件后,您可以使用 spark(相同的 spark 实例)将其写入 hive 或 presto。