mapreduce 作业后的 Hadoop 查询

Hadoop Quering after mapreduce job

你好，我最近开始阅读有关 Hadoop 的内容。我有几个问题，希望你能帮助我。

假设我在多节点集群上有运行 Map Reduce Java 作业。我有一个文件在不同的数据节点周围被分成 10 个。

现在假设我已经为主文件编写了一个查询-

是否从主名称节点收到执行计划？
它知道所有部分文件的位置吗？
它会从所有部分文件中获取所有数据吗？
我可以在同一数据节点上拥有多个部分文件吗？

1.Does 从主名称节点收到执行计划？ 不，任务由 taskrunner 调度，namenode 包含有关您的数据的元数据。即保存文件拆分部分的位置。
2. 它知道所有部分文件的位置吗？ 是的，参考点1
3. 它会从所有部分文件中获取所有数据吗？ 不，您的程序将被发送到节点，数据永远不会到达程序。
4. 我可以在同一个数据节点上有多个部分文件吗？是的，这取决于可用性和 space 限制，这是可能的，但是也有必要在同一节点中不存在至少一个数据副本。这样，如果该节点出现故障，我们仍然可以访问数据。

mapreduce 作业后的 Hadoop 查询

Hadoop Quering after mapreduce job

hadoop

mapreduce

hdfs