mapreduce 作业后的 Hadoop 查询
Hadoop Quering after mapreduce job
你好,我最近开始阅读有关 Hadoop 的内容。
我有几个问题,希望你能帮助我。
假设我在多节点集群上有 运行 Map Reduce Java 作业。
我有一个文件在不同的数据节点周围被分成 10 个。
现在假设我已经为主文件编写了一个查询-
- 是否从主名称节点收到执行计划?
- 它知道所有部分文件的位置吗?
- 它会从所有部分文件中获取所有数据吗?
- 我可以在同一数据节点上拥有多个部分文件吗?
1.Does 从主名称节点收到执行计划? 不,任务由 taskrunner 调度,namenode 包含有关您的数据的元数据。即保存文件拆分部分的位置。
2. 它知道所有部分文件的位置吗? 是的,参考点1
3. 它会从所有部分文件中获取所有数据吗? 不,您的程序将被发送到节点,数据永远不会到达程序。
4. 我可以在同一个数据节点上有多个部分文件吗? 是的,这取决于可用性和 space 限制,这是可能的,但是也有必要在同一节点中不存在至少一个数据副本。这样,如果该节点出现故障,我们仍然可以访问数据。
你好,我最近开始阅读有关 Hadoop 的内容。 我有几个问题,希望你能帮助我。
假设我在多节点集群上有 运行 Map Reduce Java 作业。 我有一个文件在不同的数据节点周围被分成 10 个。
现在假设我已经为主文件编写了一个查询-
- 是否从主名称节点收到执行计划?
- 它知道所有部分文件的位置吗?
- 它会从所有部分文件中获取所有数据吗?
- 我可以在同一数据节点上拥有多个部分文件吗?
1.Does 从主名称节点收到执行计划? 不,任务由 taskrunner 调度,namenode 包含有关您的数据的元数据。即保存文件拆分部分的位置。
2. 它知道所有部分文件的位置吗? 是的,参考点1
3. 它会从所有部分文件中获取所有数据吗? 不,您的程序将被发送到节点,数据永远不会到达程序。
4. 我可以在同一个数据节点上有多个部分文件吗? 是的,这取决于可用性和 space 限制,这是可能的,但是也有必要在同一节点中不存在至少一个数据副本。这样,如果该节点出现故障,我们仍然可以访问数据。