运行使用独立YARN的spark集群（不使用Hadoop的YARN）

Run spark cluster using an independent YARN (without using Hadoop's YARN)

我想用 YARN 集群管理器部署一个 spark 集群。这个spark集群需要从属于现有Hadoop生态系统的外部HDFS文件系统读取数据，该生态系统也有自己的YARN（但是，我不允许使用Hadoop的YARN。）

我的问题是 -

假设 spark 集群和 Hadoop 集群运行在同一个数据中心。

using an independent YARN, while still reading data from an outside HDFS filesystem

是的。将 yarn-site.xml 配置到必要的集群并使用完整的 FQDN 来引用外部文件位置，例如 hdfs://namenode-external:8020/file/path

any downside or performance penalty to this approach

是的。所有读取都将是远程的，而不是 cluster-local。然而，这实际上与从 S3 或其他远程位置读取类似的性能下降。

can I run Spark as a standalone cluster

你可以，或者你可以使用 Kubernetes，如果它可用的话，但如果已经有一个可用的 YARN 集群（具有足够的资源），那么在我看来，这两者都是毫无意义的