我很好奇 GCP 的 Data Fusion 的内部工作流程

I'm curious about the internal workflow of GCP's Data Fusion

我在开发者模式和企业模式下使用了Google云平台的DataFusion产品。

对于开发者模式,没有dataproc设置(Master节点,Worker节点)。

对于企业模式,有一个 dataproc 设置值。 (主节点,工作节点)

我比较好奇的是企业模式的情况。

我能够设置主节点和工作节点的值。

详细

Enterprise

- Dataproc
- Master.
- Number of masters: 1
- Master Cores: 2vcpu
- Master Memory (GB): 4GB
- Master Disk Size (GB): 1TB
- Worker
- Number of Workers: 2
- Worker Cores: 4vcpu
- Worker Memory (GB): 16GB
- Worker Disk Size (GB): 1.5TB
- VM
- Driver.
- CPU : 2
- Memory: 4GB (=4096MB)
- Executor
- CPU : 2
- Memory : 8GB (=8192MB)

设置如上。

当我创建数据管道时,我可以看到每个 VM 都已创建。

很好奇VM的Driver、Executor和Dataproc的Worker节点之间的关系

其实DataFusion是给dataproc设置的。当我将来创建数据管道时,它会运行 VM 实例作为该 dataproc 的设置。我想知道VM Instance的设置值(Driver, Executor)和dataproc的值之间的关系

Dataproc 允许用户创建集群,而 Cloud Data Fusion 中的驱动程序和执行程序设置允许用户调整管道 运行 将使用的集群资源量。

因此,创建一个包含 3 个工作线程和 1 个主线程的 Dataproc 集群将创建 4 个具有 Dataproc 配置中指定的内存和 CPU 的虚拟机,而 driver/executor CPU 和内存的设置决定了每个虚拟机的数量master/worker 集群上数据管道作业 运行ning 将使用的虚拟机 CPU 和内存资源。