【发布时间】:2020-10-01 11:03:37
【问题描述】:
我对 Airflow 完全陌生。我有一个要求,我必须运行两个 EMR 作业。 .目前我有一个依赖于一些输入文件的 python 脚本,如果存在它会触发 EMR 作业。
我的新要求是,我将不得不输入不同的输入文件(相同类型),这两个文件将输入到 emr 作业中,在这两种情况下,火花都会做同样的事情,但只有输入文件不一样。
create_job_workflow = EmrCreateJobFlowOperator(
task_id='some-task',
job_flow_overrides=job_flow_args,
aws_conn_id=aws_conn,
emr_conn_id=emr_conn,
dag=dag
)
我可以通过仅更改 spark-submit 中的输入文件来实现两个相同的 dag 运行,基本上每当我将执行“trigger DAG”时,它都会获取两个不同的输入文件并在两个不同的 emr 集群中触发两个不同的 emr 作业。或者你能给我一些最佳实践吗?或者如何通过改变 max_active_runs=2
【问题讨论】:
标签: python airflow airflow-scheduler