运行使用独立YARN的spark集群(不使用Hadoop的YARN)

Run spark cluster using an independent YARN (without using Hadoop's YARN)

我想用 YARN 集群管理器部署一个 spark 集群。 这个spark集群需要从属于现有Hadoop生态系统的外部HDFS文件系统读取数据,该生态系统也有自己的YARN(但是,我不允许使用Hadoop的YARN。)

我的问题是 -

假设 spark 集群和 Hadoop 集群运行在同一个数据中心。

using an independent YARN, while still reading data from an outside HDFS filesystem

是的。将 yarn-site.xml 配置到必要的集群并使用完整的 FQDN 来引用外部文件位置,例如 hdfs://namenode-external:8020/file/path

any downside or performance penalty to this approach

是的。所有读取都将是远程的,而不是 cluster-local。然而,这实际上与从 S3 或其他远程位置读取类似的性能下降。

can I run Spark as a standalone cluster

你可以,或者你可以使用 Kubernetes,如果它可用的话,但如果已经有一个可用的 YARN 集群(具有足够的资源),那么在我看来,这两者都是毫无意义的