【发布时间】:2016-04-05 16:56:45
【问题描述】:
我正在尝试使用 Python 的 Airflow 库。我希望它定期抓取网页。
我遇到的问题是,如果我的start_date 是几天前的,那么当我启动调度程序时,它将从start_date 回填到今天。例如:
假设今天是本月的 20 号。
假设start_date 是本月的 15 号。
如果我在 20 号启动调度程序,它会在 20 号刮掉页面 5 次。它将看到一个 DAG 实例应该在 15 日运行,并将在 20 日运行该 DAG 实例(15 日的实例)。然后它将在 20 日运行 16 日的 DAG 实例,以此类推。
简而言之,Airflow 会尝试“赶上”,但这对于网络抓取没有意义。
有什么方法可以让 Airflow 在一定时间后认为 DAG 实例失败?
【问题讨论】:
-
显然这是几个月前作为新的
LatestOnlyOperator(在stackoverflow.com/a/40578704/596167中找到)添加到Airflow的。