mapreduce 作业后的 Hadoop 查询

Hadoop Quering after mapreduce job

你好,我最近开始阅读有关 Hadoop 的内容。 我有几个问题,希望你能帮助我。

假设我在多节点集群上有 运行 Map Reduce Java 作业。 我有一个文件在不同的数据节点周围被分成 10 个。

现在假设我已经为主文件编写了一个查询-

  1. 是否从主名称节点收到执行计划?
  2. 它知道所有部分文件的位置吗?
  3. 它会从所有部分文件中获取所有数据吗?
  4. 我可以在同一数据节点上拥有多个部分文件吗?

1.Does 从主名称节点收到执行计划? 不,任务由 taskrunner 调度,namenode 包含有关您的数据的元数据。即保存文件拆分部分的位置。
2. 它知道所有部分文件的位置吗? 是的,参考点1
3. 它会从所有部分文件中获取所有数据吗? 不,您的程序将被发送到节点,数据永远不会到达程序。
4. 我可以在同一个数据节点上有多个部分文件吗? 是的,这取决于可用性和 space 限制,这是可能的,但是也有必要在同一节点中不存在至少一个数据副本。这样,如果该节点出现故障,我们仍然可以访问数据。