【问题标题】:How to transfer files from Azure Data Lake Gen2 to GCS如何将文件从 Azure Data Lake Gen2 传输到 GCS
【发布时间】:2021-07-01 14:27:07
【问题描述】:

我使用的是 Airflow 版本 1.10.12。

  1. 此版本的气流中是否有任何操作员将文件从 Azure Data Lake Gen 2 Blob 存储复制到 Google 云存储。

  2. 我们是否安装 PyPi 包来克服这个缺陷

【问题讨论】:

    标签: airflow


    【解决方案1】:

    首先让我声明,Airflow 1.10 已于 2021 年 6 月 17 日结束生命周期,即使进行安全修复也不支持。 1.10.12 是相当旧的版本,您应该尽快迁移到 2.0(现在!)。

    关于您关于运营商的问题 - Airflow 2.0 定义了许多供应商,您可以轻松浏览它们并在此处查看它们https://airflow.apache.org/docs/ - 这些都是当前支持的供应商/运营商。

    您可以查看 Microsoft Azure 的运算符列表:

    https://airflow.apache.org/docs/apache-airflow-providers-microsoft-azure/stable/operators/index.html

    和谷歌:

    https://airflow.apache.org/docs/apache-airflow-providers-google/stable/operators/transfer/index.html

    您可以查找它们,看看是否有任何解决您的问题。我认为您不需要直接的操作员。但是即使没有,只要你有正确的 Hooks 就不是问题,组合几个 Hooks 并构建你自己的自定义操作符应该是相当容易的

    Azure Data Lake Hook 在那里:Azure Data Lake Hook

    类似谷歌云存储: GCS Hook

    所以这应该很容易构建您的自定义运算符来做您想做的事情 - 您可以使用 AzureFileShare->GCS 并构建非常相似的运算符:

    AzureFileShareToGCSOperator

    只需按照Create custom operatpr 指导即可。

    【讨论】:

    • 我正在使用 ADLSToGoogleCloudOperator 连接到 Azure Data Lake Gen 2 并复制 Blob 容器中的文件。但是,主机值显示为 host='accountname.azuredatalakestore.net', port=443。默认情况下,此运算符是否将主机名解析为 azuredatalakestore.net?有什么办法可以更改主机名吗?
    • 您使用的是什么连接方式?您需要创建正确的连接以连接到您的 Azure 存储数据湖
    • 连接类型:Azure Data Lake 和 ADLSToGoogleCloudStorageOperator
    猜你喜欢
    • 1970-01-01
    • 2019-11-13
    • 2019-12-02
    • 2019-07-10
    • 2019-09-10
    • 1970-01-01
    • 1970-01-01
    • 2021-03-06
    • 2023-03-26
    相关资源
    最近更新 更多