运行使用独立YARN的spark集群(不使用Hadoop的YARN)
Run spark cluster using an independent YARN (without using Hadoop's YARN)
我想用 YARN 集群管理器部署一个 spark 集群。
这个spark集群需要从属于现有Hadoop生态系统的外部HDFS文件系统读取数据,该生态系统也有自己的YARN(但是,我不允许使用Hadoop的YARN。)
我的问题是 -
- 是否可以运行使用独立的 YARN 启动集群,同时仍然从外部 HDFS 文件系统读取数据?
- 如果是,这种方法是否有任何缺点或性能损失?
- 如果没有,我可以运行 Spark 作为一个独立的集群吗?会有任何性能问题吗?
假设 spark 集群和 Hadoop 集群运行在同一个数据中心。
using an independent YARN, while still reading data from an outside HDFS filesystem
是的。将 yarn-site.xml
配置到必要的集群并使用完整的 FQDN 来引用外部文件位置,例如 hdfs://namenode-external:8020/file/path
any downside or performance penalty to this approach
是的。所有读取都将是远程的,而不是 cluster-local。然而,这实际上与从 S3 或其他远程位置读取类似的性能下降。
can I run Spark as a standalone cluster
你可以,或者你可以使用 Kubernetes,如果它可用的话,但如果已经有一个可用的 YARN 集群(具有足够的资源),那么在我看来,这两者都是毫无意义的
我想用 YARN 集群管理器部署一个 spark 集群。 这个spark集群需要从属于现有Hadoop生态系统的外部HDFS文件系统读取数据,该生态系统也有自己的YARN(但是,我不允许使用Hadoop的YARN。)
我的问题是 -
- 是否可以运行使用独立的 YARN 启动集群,同时仍然从外部 HDFS 文件系统读取数据?
- 如果是,这种方法是否有任何缺点或性能损失?
- 如果没有,我可以运行 Spark 作为一个独立的集群吗?会有任何性能问题吗?
假设 spark 集群和 Hadoop 集群运行在同一个数据中心。
using an independent YARN, while still reading data from an outside HDFS filesystem
是的。将 yarn-site.xml
配置到必要的集群并使用完整的 FQDN 来引用外部文件位置,例如 hdfs://namenode-external:8020/file/path
any downside or performance penalty to this approach
是的。所有读取都将是远程的,而不是 cluster-local。然而,这实际上与从 S3 或其他远程位置读取类似的性能下降。
can I run Spark as a standalone cluster
你可以,或者你可以使用 Kubernetes,如果它可用的话,但如果已经有一个可用的 YARN 集群(具有足够的资源),那么在我看来,这两者都是毫无意义的