为什么我们在 YARN 中配置 mapred.job.tracker？

Question

据我所知，引入了 YARN，它取代了 JobTracker 和 TaskTracker。

我看过一些 Hadoop 2.6.0/2.7.0 安装教程，他们将 mapreduce.framework.name 配置为纱线，将 mapred.job.tracker 属性配置为本地或 host:port .

mapred.job.tracker 属性的描述是

"The host and port that the MapReduce job tracker runs at. If "local", then jobs are run in-process as a single map and reduce task."

我的疑问是如果我们使用 YARN 为什么要配置它，我的意思是 JobTracker 不应该运行对吗？

如果我的问题很愚蠢，请原谅我。

编辑：这些是我所说的教程。

http://chaalpritam.blogspot.in/2015/01/hadoop-260-multi-node-cluster-setup-on.html

http://pingax.com/install-apache-hadoop-ubuntu-cluster-setup/

https://chawlasumit.wordpress.com/2015/03/09/install-a-multi-node-hadoop-cluster-on-ubuntu-14-04/

Answer 1

这只是一个猜测，但是那些讨论在 YARN 中配置 JobTracker 的教程要么是由不知道 YARN 是什么的人编写的，要么是他们设置的，以防你有一天决定停止使用 YARN。你是对的：JobTracker 和 TaskTracker 在 YARN 中不存在。您可以根据需要添加属性，但它们将被忽略。 YARN 添加了替换 JobTracker 和 TaskTracker 的每个组件的新属性，例如 yarn.resourcemanager.address 替换 mapred.jobtracker.address.

如果在 YARN 下运行 Hadoop 时列出 Java 进程，则看不到 JobTracker 或 TaskTracker:

10561 Jps
20605 NameNode
17176 DataNode
18521 ResourceManager
19625 NodeManager
18424 JobHistoryServer

您可以阅读有关 how YARN works here 的更多信息。

为什么我们在 YARN 中配置 mapred.job.tracker？

Why we are configuring mapred.job.tracker in YARN?

hadoop

mapreduce

hadoop-yarn