【问题标题】:Which is more faster A). Data load from informatica power exchange to snowflake or B). Data load from AWS S3 to Snowflake哪个更快 A)。从 informatica 电力交换到雪花或 B) 的数据负载。数据从 AWS S3 加载到 Snowflake
【发布时间】:2020-09-09 07:36:22
【问题描述】:

请建议将数据加载到雪花的最佳方法,我目前对两种方法感到困惑

A)。首先将数据从 Informatica Power center 加载到 s3,然后再加载到雪花

B)。将数据直接从 Informatica 加载到雪花,并从 Informatica 并行加载到 s3。

我的最终目标是在 S3 和雪花中都有数据,只是对遵循哪种方法感到困惑。

而且我需要在雪花中添加增量数据,而不仅仅是附加数据。

【问题讨论】:

  • 逻辑上如果我们应该首先加载 s3 然后雪花应该是更好更快的方法。
  • 感谢 Sandeep ,那么从 s3 将增量数据加载到雪花的最佳成本效益方法是什么?听说过雪管,但它只处理数据追加而不是 upsert 场景?对此有任何建议。
  • 为了更具成本效益,从 S3 中删除数据,但这非常少..

标签: amazon-web-services amazon-s3 snowflake-cloud-data-platform informatica-powercenter


【解决方案1】:

如果数据量很大,我认为选项 A,Informatica 映射,逻辑很复杂,需要大量时间来缓存/处理/加载所有数据。
但是,如果您要处理的数据较少且 Informatica 映射并不复杂且没有主动转换(AGG、SRT、JNR 等),则 Informatica 服务器非常强大且花费的时间较短,那么您可以选择 B。另外请注意并行性在选项 B 中是巨大的 +。
我的建议是测试这两种选择,因为它们各有利弊。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2022-01-24
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-11-13
    相关资源
    最近更新 更多