mapreduce hadoop 中的减速器数量
No of reducers in mapreduce hadoop
我只有一个从 mapper 发送到 reducer 的键,我已经将 no of reducers 设置为 10。所以一个 reducer 将 运行 在那个键上,剩下的 9 个 reducer 会做什么?
其他 9 个 reducer 将 运行 正常度过它们的生命周期,它们只是在 运行 后没有任何 key/values 需要处理,所以它们会很快停止。因此,您将在不必要的时候浪费资源 运行.
您通常(大多数输出格式都这样做)还会发现您最终得到了一个用于减少的部分文件,运行 但没有写任何东西。零件文件将不包含任何实际数据,仅包含文件元数据,例如 gzip headers.
其他 9 个减速器将 运行 直到它们的时隙结束。
他们不会有任何 K/V 对要处理并快速停止。
您可以使用自定义分区器将 map 输出均匀地分配给所有 reducer; - 至少是第一级;最后在最后阶段通过一个减速器组合 - 从而减少大部分减速阶段的计算负载。
我只有一个从 mapper 发送到 reducer 的键,我已经将 no of reducers 设置为 10。所以一个 reducer 将 运行 在那个键上,剩下的 9 个 reducer 会做什么?
其他 9 个 reducer 将 运行 正常度过它们的生命周期,它们只是在 运行 后没有任何 key/values 需要处理,所以它们会很快停止。因此,您将在不必要的时候浪费资源 运行.
您通常(大多数输出格式都这样做)还会发现您最终得到了一个用于减少的部分文件,运行 但没有写任何东西。零件文件将不包含任何实际数据,仅包含文件元数据,例如 gzip headers.
其他 9 个减速器将 运行 直到它们的时隙结束。
他们不会有任何 K/V 对要处理并快速停止。
您可以使用自定义分区器将 map 输出均匀地分配给所有 reducer; - 至少是第一级;最后在最后阶段通过一个减速器组合 - 从而减少大部分减速阶段的计算负载。