【发布时间】:2021-10-07 15:28:27
【问题描述】:
我们正在使用 apache pyspark 和 apache airflow 开发 ETL 工具。 Apache 气流将用于工作流管理。
- apache pyspark 能否处理海量数据?
- 我可以从 apache 气流中提取、转换计数吗?
【问题讨论】:
我们正在使用 apache pyspark 和 apache airflow 开发 ETL 工具。 Apache 气流将用于工作流管理。
【问题讨论】:
#2 的一些解决方案是:
我的 2c:不要在 Airflow 本身中处理大数据,因为它是为编排而不是数据处理而构建的。如果中间数据变大,请为此使用专用存储系统(数据库、blob 存储等)。 XCom 存储在 Airflow 元存储本身中(尽管自 Airflow 2.0 https://www.astronomer.io/guides/custom-xcom-backends 起支持将数据存储在其他系统中的自定义 XCom 后端),因此如果将数据存储在 Airflow 元存储中,请确保数据不要太大。
【讨论】: