如何将级联作业的输出合并到特定大小

How to merge output of a cascading job to a specific size

我有一个输出 30 个 25MB 文件的级联作业。无论如何我可以将它减少到每个 256 mb 文件。我试过-Dmapreduce.job.reduces=1。它似乎没有工作。任何指导都会有所帮助

Total memory = 30*25 = 750 ,

required output files = 750/256 = 3 ,

您可以在 job.On 最终输出管道中再添加一个 map-reduce 任务 put group by 或 unique 或您可以为其设置 reducer 数量并将 reducer 数量设置为 3 或 4 的任何操作您将获得输出文件的数量作为减速器的数量。