【发布时间】:2020-09-25 13:03:07
【问题描述】:
首先我需要一个 Bigquery sql 函数来检查我的数据集中的整个表是否有任何空值。
其次根据结果(是否找到空值),我需要使用Airflow调度器执行下游依赖表。
这是条件:如果在表中发现任何空值,则依赖于具有空值的表的后续下游表应通过气流调度程序停止执行。
【问题讨论】:
首先我需要一个 Bigquery sql 函数来检查我的数据集中的整个表是否有任何空值。
其次根据结果(是否找到空值),我需要使用Airflow调度器执行下游依赖表。
这是条件:如果在表中发现任何空值,则依赖于具有空值的表的后续下游表应通过气流调度程序停止执行。
【问题讨论】:
我不确定 Bigquery 中是否有类似的功能来扫描数据集中的整个表。
但是对于 2.) 我们可以在气流中相应地设置触发规则并设置任务依赖关系,以便在找到 null 时跳过下游任务。并且您可以停止 dag,您还可以保持电子邮件警报,即使找到 null 也不会导致任务失败。
https://airflow.apache.org/docs/1.10.2/concepts.html?highlight=trigger#trigger-rules
【讨论】: