Pig 无法创建 .bz2 文件但创建 .deflate 文件
Pig unable to create .bz2 files but creating .deflate files
这是我用来读取、过滤然后压缩 bzip2 中的数据的 pig 脚本,但我得到的是 .deflate 文件而不是 .bz2。
set output.compression.enabled true;
set output.compression.codec org.apache.hadoop.io.compress.BZip2Codec;
inputFile = LOAD '/dl/myfolder/' using PigStorage('|') AS (col1,col2,col3,col4,col5,clo6,col7,col8,col9,col10);
filteredFile = FILTER inputFile BY col7 is not null;
store filteredFile into '/dl/myfolder/compressdata/' USING PigStorage('|');
Output file /dl/myfolder/compressdata/part-m-00000.deflate
感谢您的帮助..
请尝试将输出目录名称更改为以 bz2(或 bz)结尾。
store filteredFile into '/dl/myfolder/compressdata.bz2/' USING PigStorage('|');
很遗憾无法更新,因为我们在从 pivotal 升级到 hortonworks 时遇到了这个问题。并发现
mapreduce.map.output.compress = 真
mapreduce.output.fileoutputformat.compress = 真
这些会覆盖会话中的输出格式并始终进行压缩。
将它们设置为 false 后,我们得到了所需的输出
感谢Koji/John您的宝贵时间和宝贵意见。
Koji 根据您的建议,我们有较旧的设计,并且一切都使用 bzip2,因此在下次升级时可能会更改为 Lzo :)
这是我用来读取、过滤然后压缩 bzip2 中的数据的 pig 脚本,但我得到的是 .deflate 文件而不是 .bz2。
set output.compression.enabled true;
set output.compression.codec org.apache.hadoop.io.compress.BZip2Codec;
inputFile = LOAD '/dl/myfolder/' using PigStorage('|') AS (col1,col2,col3,col4,col5,clo6,col7,col8,col9,col10);
filteredFile = FILTER inputFile BY col7 is not null;
store filteredFile into '/dl/myfolder/compressdata/' USING PigStorage('|');
Output file /dl/myfolder/compressdata/part-m-00000.deflate
感谢您的帮助..
请尝试将输出目录名称更改为以 bz2(或 bz)结尾。
store filteredFile into '/dl/myfolder/compressdata.bz2/' USING PigStorage('|');
很遗憾无法更新,因为我们在从 pivotal 升级到 hortonworks 时遇到了这个问题。并发现 mapreduce.map.output.compress = 真 mapreduce.output.fileoutputformat.compress = 真 这些会覆盖会话中的输出格式并始终进行压缩。 将它们设置为 false 后,我们得到了所需的输出
感谢Koji/John您的宝贵时间和宝贵意见。
Koji 根据您的建议,我们有较旧的设计,并且一切都使用 bzip2,因此在下次升级时可能会更改为 Lzo :)