应如何配置主节点和工作节点以实现可扩展性和高可用性

How should master and worker node be configured for Scalability and High Availability

我正在使用 GCP Dataproc 和 Kubernetes 开发数据工程解决方案。

虽然创建原型很容易,但问题是主从配置。 云供应商的例子说主和工人的配置相同。

https://cloud.google.com/ai-platform/training/docs/machine-types

A​​WS 和 Azure 等其他云提供商也是如此。

master 的配置可以低于 worker 吗? 例如。 大师 = n1-highcpu-8 工人 = n1-highcpu-16

当您 运行 GKE 上的 Dataproc 时,主节点和工作节点大小实际上并不适用,因为 Kubernetes 成为资源管理器而不是 YARN。当您创建 GKE 集群时,有多种策略可以优化 运行ning Dataproc 的成本和规模。我建议使用 Node Auto-provisioning,因为它会根据部署的工作负载自动 add/remove 适当大小的节点。您还可以设置节点的最小和最大大小。我相信最小尺寸应该使用 4 CPU 机器类型。

创建标准 Dataproc 集群时,主节点和工作节点确实可以是不同类型。有助于确定主节点正确大小的因素包括工作节点数量和提交的作业数量。通常,您最终会为主节点和工作节点提供类似的 CPU 配置,如果您有 500 多个工作节点,您可能希望主节点的内存是工作节点的 2 倍需要管理的员工人数要多得多。