如何在HADOOP_CONF_DIR中指定集群位置？

Question

关于提交申请的 Spark documentation 说：

Connect to a YARN cluster in client or cluster mode depending on the value of --deploy-mode. The cluster location will be found based on the HADOOP_CONF_DIR or YARN_CONF_DIR variable.

恐怕我没明白。我发现 HADOOP_CONF_DIR 设置为 /etc/hadoop，其中包含许多 shell 脚本和配置文件。

我应该在哪里找到集群位置？

Answer 1

HADOOP_CONF_DIR 是包含 Hadoop 库用于各种 Hadoop 特定内容的配置文件的目录。我写了各种 Hadoop 特定的东西 来强调这里没有太多与 Spark 相关的东西。

更重要的是 HADOOP_CONF_DIR 也可以指向一个空目录（表示假定默认值）。

要回答您的问题，您可以使用 yarn.resourcemanager.address 在 yarn-site.xml 中定义集群位置。如果未找到 yarn-site.xml，则 YARN 集群在本地主机上可用。

Where should I place yarn-site.xml so spark-submit will use it?

我以前用YARN_CONF_DIR指向带yarn-site.xml的目录。

YARN_CONF_DIR=/tmp ./bin/spark-shell --master yarn

如何在HADOOP_CONF_DIR中指定集群位置？

How to specify cluster location in HADOOP_CONF_DIR?

hadoop-yarn

apache-spark