Yarn 在 SPARK 中作为 linux 集群的资源管理器——在 Kubernetes 内部和 Kubernetes 外部
Yarn as resource manager in SPARK for linux cluster - inside Kubernetes and outside Kubernetes
如果我使用 Kubernetes 集群来 运行 spark,那么我在 Spark 中使用 Kubernetes 资源管理器。
如果我使用 Hadoop 集群来 运行 spark,那么我在 Spark 中使用 Yarn 资源管理器。
但我的问题是,如果我在 kebernetes 中生成多个 linux 节点,并将其中一个节点用作 spark master,将另外三个节点用作 worker,我应该使用什么资源管理器?我可以在这里使用纱线吗?
第二个问题,如果是任何4节点linux spark集群(不是在kubernetes也不是hadoop,简单连接linux机器),即使我没有hdfs,我可以使用yarn 在这里作为资源管理器?如果不是,那么 saprk 应该使用什么资源管理器?
谢谢。
if I am spawning multiple linux nodes in kebernetes,
那么你显然会使用 kubernetes,因为它可用
in case of any 4 node linux spark cluster (not in kubernetes and not hadoop, simple connected linux machines), even if I do not have hdfs, can I use yarn here
您可以,或者您可以改用 Spark Standalone 调度程序。然而,Spark 需要共享文件系统来读取和写入数据,因此,虽然您可以尝试使用 NFS,或 S3/GCS 为此,HDFS 更快
如果我使用 Kubernetes 集群来 运行 spark,那么我在 Spark 中使用 Kubernetes 资源管理器。
如果我使用 Hadoop 集群来 运行 spark,那么我在 Spark 中使用 Yarn 资源管理器。
但我的问题是,如果我在 kebernetes 中生成多个 linux 节点,并将其中一个节点用作 spark master,将另外三个节点用作 worker,我应该使用什么资源管理器?我可以在这里使用纱线吗?
第二个问题,如果是任何4节点linux spark集群(不是在kubernetes也不是hadoop,简单连接linux机器),即使我没有hdfs,我可以使用yarn 在这里作为资源管理器?如果不是,那么 saprk 应该使用什么资源管理器?
谢谢。
if I am spawning multiple linux nodes in kebernetes,
那么你显然会使用 kubernetes,因为它可用
in case of any 4 node linux spark cluster (not in kubernetes and not hadoop, simple connected linux machines), even if I do not have hdfs, can I use yarn here
您可以,或者您可以改用 Spark Standalone 调度程序。然而,Spark 需要共享文件系统来读取和写入数据,因此,虽然您可以尝试使用 NFS,或 S3/GCS 为此,HDFS 更快