我很好奇GCP的Data Fusion的内部工作流程答案

【问题标题】：I'm curious about the internal workflow of GCP's Data Fusion我很好奇GCP的Data Fusion的内部工作流程
【发布时间】：2021-02-08 21:50:45
【问题描述】：

我在开发者和企业模式下使用过 Google Cloud 平台的 DataFusion 产品。

对于开发者模式，没有 dataproc 设置（主节点、工作节点）。

对于企业模式，有一个 dataproc 设置值。（主节点、工作节点）

我很好奇的是企业模式的情况。

我能够为 Master 节点和 Worker 节点设置值。

详细

Enterprise

- Dataproc
- Master.
- Number of masters: 1
- Master Cores: 2vcpu
- Master Memory (GB): 4GB
- Master Disk Size (GB): 1TB
- Worker
- Number of Workers: 2
- Worker Cores: 4vcpu
- Worker Memory (GB): 16GB
- Worker Disk Size (GB): 1.5TB
- VM
- Driver.
- CPU : 2
- Memory: 4GB (=4096MB)
- Executor
- CPU : 2
- Memory : 8GB (=8192MB)

设置如上。

当我创建数据管道时，我可以看到每个 VM 都已创建。

我很好奇VM的Driver、Executor和Dataproc的Worker节点之间的关系。

其实DataFusion给dataproc提供了一个设置。当我将来创建数据管道时，它会运行 VM 实例作为该数据过程的设置。我想知道VM Instance的设定值（Driver, Executor）和dataproc的值之间的关系。

【问题讨论】：

标签： apache-spark google-cloud-platform google-cloud-data-fusion

【解决方案1】：

Dataproc 允许用户创建集群，而 Cloud Data Fusion 中的驱动程序和执行程序设置允许用户调整流水线运行将使用多少集群资源。

因此，创建一个包含 3 个工作程序和 1 个主服务器的 Dataproc 集群将创建 4 个虚拟机，其内存和 CPU 在 Dataproc 配置中指定，而驱动程序/执行程序 CPU 和内存的设置决定了每个主服务器/工作程序虚拟机的数量在集群上运行的数据管道作业将使用的 CPU 和内存资源。

【讨论】：