将 hive table 作为单个文件输出到 HDFS
Outputting hive table to HDFS as a single file
我正在尝试将配置单元中的 table 的内容作为单个 csv 文件输出到 hdfs,但是当我 运行 下面的代码将其拆分为 5 个单独的文件每个约 500mb。在将结果输出为单个 csv 文件方面,我是否遗漏了什么?
set hive.execution.engine=tez;
set hive.merge.tezfiles=true;
INSERT OVERWRITE DIRECTORY "/dl/folder_name"
row format delimited fields terminated by ','
select * from schema.mytable;
在您的 select 查询中添加 orderby
子句,然后 Hive 将强制执行 运行 single reducer
,这将在 HDFS 目录中仅创建一个文件。
INSERT OVERWRITE DIRECTORY "/dl/folder_name"
row format delimited fields terminated by ','
select * from schema.mytable order by <col_name>;
注:
如果输出中的 number of rows 太大,single reducer
可能需要很长时间才能完成。
我正在尝试将配置单元中的 table 的内容作为单个 csv 文件输出到 hdfs,但是当我 运行 下面的代码将其拆分为 5 个单独的文件每个约 500mb。在将结果输出为单个 csv 文件方面,我是否遗漏了什么?
set hive.execution.engine=tez;
set hive.merge.tezfiles=true;
INSERT OVERWRITE DIRECTORY "/dl/folder_name"
row format delimited fields terminated by ','
select * from schema.mytable;
在您的 select 查询中添加 orderby
子句,然后 Hive 将强制执行 运行 single reducer
,这将在 HDFS 目录中仅创建一个文件。
INSERT OVERWRITE DIRECTORY "/dl/folder_name"
row format delimited fields terminated by ','
select * from schema.mytable order by <col_name>;
注:
如果输出中的 number of rows 太大,single reducer
可能需要很长时间才能完成。