【问题标题】:Snowpipe vs Airflow for Continues data loading into SnowflakeSnowpipe vs Airflow 继续将数据加载到雪花中
【发布时间】:2020-11-19 19:12:15
【问题描述】:

我有一个关于雪花的问题。实际上,在我目前的角色中,我计划将数据从 ADLS(Azure 数据湖)迁移到 Snowflake。 我现在正在寻找 2 个选项

  1. 创建 Snowpipe 以加载更新的数据
  2. 为其创建 Airflow 作业。

我仍在尝试了解哪种方式是最好的方式,以及选择每种方式的优缺点是什么。

【问题讨论】:

  • 通过 Airflow 作业将数据从 ADLS 复制到 Snowflake 是否更可取?我知道有一个 Airflow Snowflake CLI 连接器。问题是作业需要同步。 Airflow 还有助于依赖管理和通知系统。你会如何建议我们在 Airflow in Snowflake 中所做的所有事情?

标签: airflow airflow-scheduler snowflake-pipe snowflake-cloud-data-platform


【解决方案1】:

这取决于您在此迁移中尝试执行的操作。如果它是一个普通的香草(没有转换,没有复杂的验证)数据从 ADLS 迁移到雪花,那么你可能对雪管很好(但也请检查你的场景是否适合雪管或批量复制-@987654321 @)。

如果您在将数据移动到雪花之前有很多步骤,并且将来可能需要更改工作流程,则最好使用 Airflow,这将为您提供更大的灵活性。在我的一次迁移中,我使用了 Airflow,而在另一次迁移中使用了 CONTROL-M

【讨论】:

  • 不应该将 Airflow 与 Snowflake Task 进行比较而不是与 Snowpipe.. 吗?
【解决方案2】:

如果您使用 Snowpipe 而不是 Airflow,您将能够以更低的延迟加载更多的数据。在我看来,管理 Snowpipe 也会更容易。

Airflow 是一个批处理调度程序,使用它来调度运行频率超过 5 分钟的任何事情都会变得难以管理。此外,您必须使用 Airflow 自己管理扩展。 Snowpipe 是一种无服务器选项,可以根据看到的数量进行扩展和缩减,您将在 2 分钟内看到您的数据。

限制您使用 Snowpipe 的唯一因素是成本。不过,如果您认为自己也需要有人来管理您的 Airflow 管道,那么从长远来看,您可能会发现 Snowpipe 最终会更便宜。

【讨论】:

    猜你喜欢
    • 2020-10-07
    • 1970-01-01
    • 2020-04-06
    • 1970-01-01
    • 2021-07-18
    • 1970-01-01
    • 1970-01-01
    • 2021-04-12
    • 2022-01-15
    相关资源
    最近更新 更多