Google 云存储 - Tez 输出文件

Google cloud storage - Tez output files

当我 运行 使用 tez 进行查询时,输出文件的数量非常庞大。我有一些 4-5 GB 的数据,每个数据有 46 MB 或 16 MB。我只想将 2-3 个文件作为输出文件。

我的输出文件位置将是 google 云存储。如何合并文件?

set mapred.reduce.tasks = 1;
set hive.merge.mapfiles = true; 
set hive.mergejob.maponly = true;
set hive.merge.mapredfiles=true;

我确实设置了这些参数。而且我确实编写了插入覆盖查询来覆盖同一位置的数据。没用。请帮忙。

我能够完成这项工作。早些时候,当我这样做时,它只是地图工作。现在,我已经稍微更改了查询以也使用 reducer(添加了 distribution by)。然后,如果我说 "number of reducer = 1" 它有效。但它不适用于其他仅适用于地图作业的参数