Spark 提交 YARN 模式 HADOOP_CONF_DIR 内容

Question

我正在尝试在 YARN 模式下使用 spark submit 在 hadoop 集群上启动 spark 任务。

我正在从我的开发机器上启动 spark-submit。

根据 Running Spark On YARN 文档，我应该在环境变量 HADOOP_CONF_DIR 或 YARN_CONF_DIR 上为 hadoop 集群配置提供路径。这就是它变得棘手的地方：如果我将任务发送到远程 YARN 服务，为什么这些文件夹必须存在于我的本地机器上？这是否意味着 spark-submit 必须位于 inside 集群中，因此我无法远程启动 spark 任务？如果没有，我应该用什么填充这些文件夹？是否应该从任务管理器服务所在的YARN集群节点复制hadoop配置文件夹？

Answer 1

1) 提交作业时，Spark 需要知道它正在连接什么。文件被解析，所需的配置被用于连接到 Hadoop 集群。请注意，在文档中他们说它是 客户端配置 （在第一句中），这意味着您实际上不需要所有配置来连接到文件中的集群（以使用极简配置连接到非安全的 Hadoop 集群）您至少需要以下配置：

fs.defaultFS（如果您打算从 HDFS 读取）
dfs.nameservices
yarn.resourcemanager.hostname 或 yarn.resourcemanager.address
yarn.application.classpath
（可能需要其他，具体取决于配置）

您可以通过在您提交的作业代码中设置相同的设置来避免拥有文件：

SparkConf sparkConfiguration = new SparkConf();
sparkConfiguration.set("spark.hadoop.fs.defaultFS", "...");
...

2) Spark 提交可以位于任何机器上，不一定在集群上，只要它知道如何连接到集群即可（您甚至可以运行从 Eclipse 提交，无需安装任何东西, 但项目依赖关系, 与 Spark 相关)。

3) 您应该使用以下内容填充配置文件夹：

核心-site.xml
纱-site.xml
hdfs-site.xml
mapred-site.xml

从服务器复制这些文件是最简单的开始方法。在您可以删除一些 spark-submit 不需要或可能对安全敏感的配置后。

Spark 提交 YARN 模式 HADOOP_CONF_DIR 内容

Spark submit YARN mode HADOOP_CONF_DIR contents

hadoop

hadoop-yarn

apache-spark