【问题标题】:Difference Between Cloud Data fusion and DataFlow on GCPGCP 上 Cloud Data fusion 和 DataFlow 的区别
【发布时间】:2021-04-09 03:33:42
【问题描述】:

GCP流水线服务有什么区别: 云数据流和云数据融合... 什么时候给你?

我使用 Basic in Data fusion 对 10 个实例进行了高水平定价。 和 Dataflow 中的 10 个实例集群 (n1-standard-8)。

Datafusion 的价格是前者的两倍多。

各有什么优缺点

【问题讨论】:

    标签: google-cloud-dataflow google-cloud-data-fusion


    【解决方案1】:

    Cloud Dataflow 专为高度并行化的图形处理而构建。并可用于批处理和基于流的处理。它还被构建为完全托管,混淆了管理和理解底层资源扩展概念的需要,例如如何优化 shuffle 性能或处理关键的不平衡问题。用户/开发人员负责通过代码构建图形;创建 N 个转换和/或操作以实现预期目标。例如:从存储中读取文件,处理文件中的每一行,从行中提取数据,将数据转换为数字,将数据按 X 组求和,将输出写入数据湖。

    Cloud Data Fusion 专注于启用数据集成场景 => 从源读取(通过可扩展的连接器集)并写入目标,例如BigQuery、存储等。它确实有并行化概念,但它们不像 Cloud Dataflow 那样完全托管。 CDF 位于 Cloud Dataproc 之上,后者是基于 Hadoop 的处理的托管版本。它的最佳点是利用一组可扩展的连接器和运算符进行基于可视化的图形开发。

    您的问题基于“成本”概念。我的建议是退后一步,定义你的处理/图形目标是什么样的。然后看每个产品的价值。如果您希望完全控制处理语义并更加关注分析,并且希望批量运行,或者必须将流式重点放在 Dataflow 上。如果您想要点击式数据移动,较少关注数据分析并且不需要流式传输,请查看 CDF。

    【讨论】:

      猜你喜欢
      • 2018-03-08
      • 1970-01-01
      • 2021-01-29
      • 1970-01-01
      • 2020-07-19
      • 2018-07-25
      • 2012-08-26
      • 2020-02-09
      • 2021-08-11
      相关资源
      最近更新 更多