Hadoop 2节点集群通信查询

Question

我有一个 2 节点的 Hadoop 集群（主节点和从节点）。两个节点都已启动运行ning，因为我可以在 localhost:50070.

上检查它们的健康状况

所以我将这个 150 MB 的文件夹（纯文本）放入 Master 的 HDFS 中。然后我运行下一个命令：

  hadoop jar hadoop-mapreduce-examples-2.6.0.jar wordcount /In/ /Out/

问题是我得到的执行时间与运行在一个节点上执行命令时的执行时间相同。在我看来，节点似乎并没有真正进行任何并行处理！！

我正在检查从服务器上的日志，我有以下内容：

2015-03-18 23:52:49,455 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: Receiving BP-1680309327-31.220.211.10-1426721698684:blk_1073741856_1032 src: /31.220.211.10:46035 dest: /31.220.211.35:50010
2015-03-18 23:52:51,191 INFO org.apache.hadoop.hdfs.server.datanode.DataNode.clienttrace: src: /31.220.211.10:46035, dest: /31.220.211.35:50010, bytes: 3796560, op: HDFS_WRITE, cliID: DFSClient_NONMAPREDUCE_688133940_1, offset: 0, srvID: fbea19bb-06ee-4868-af5c-0cb9699064f3, blockid: BP-1680309327-31.220.211.10-1426721698684:blk_1073741856_1032, duration: 1734807025
2015-03-18 23:52:51,191 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: PacketResponder: BP-1680309327-31.220.211.10-1426721698684:blk_1073741856_1032, type=LAST_IN_PIPELINE, downstreams=0:[] terminating
2015-03-18 23:52:59,733 INFO org.apache.hadoop.hdfs.server.datanode.BlockPoolSliceScanner: Verification succeeded for BP-1680309327-31.220.211.10-1426721698684:blk_1073741856_1032

关于大师：

15/03/18 23:52:50 INFO mapred.Task: Task 'attempt_local1934686363_0001_r_000000_0' done.
15/03/18 23:52:50 INFO mapred.LocalJobRunner: Finishing task: attempt_local1934686363_0001_r_000000_0
15/03/18 23:52:50 INFO mapred.LocalJobRunner: reduce task executor complete.
15/03/18 23:52:50 INFO mapreduce.Job:  map 100% reduce 100%
15/03/18 23:52:50 INFO mapreduce.Job: Job job_local1934686363_0001 completed successfully
15/03/18 23:52:51 INFO mapreduce.Job: Counters: 38

这正常吗？为什么有人说我的两个节点都处于活动状态，但是当运行ning wordcount 示例时它不并行化？但相反，它的行为就像运行本地的一切！！

我似乎找不到这个问题的答案，所以如果能得到一些帮助，我会很高兴。

Answer 1

问题是，即使我的两个节点都被认为是活动的，作业仍然在本地运行。

那是因为 yarn 文件缺少这个属性:

<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>

我还三重检查了所有节点上的所有配置文件是否相同！！仔细检查所有内容后，作业运行 global.

另一件事是在配置集群时要注意 Hadoop 1.x 和 Hadoop 2.x 不共享相同的配置参数。

Hadoop 2节点集群通信查询

Hadoop 2 node Cluster Communication Query

cloud

hadoop

cluster-computing