如何防止apache pig输出空文件?
How to prevent Apache pig from outputting empty files?
我有一个从 HDFS 上的目录读取数据的 pig 脚本。数据存储为 avro 文件。文件结构如下:
DIR--
--Subdir1
--Subdir2
--Subdir3
--Subdir4
在 pig 脚本中,我只是在执行加载、过滤和存储。看起来像:
items = LOAD path USING AvroStorage()
items = FILTER items BY some property
STORE items into outputDirectory using AvroStorage()
现在的问题是 pig 在输出目录中输出了很多空文件。我想知道是否有办法删除这些文件?谢谢!
对于 pig 版本 0.13 及更高版本,您可以设置 pig.output.lazy=true 以避免创建空文件。 (https://issues.apache.org/jira/browse/PIG-3299)
我有一个从 HDFS 上的目录读取数据的 pig 脚本。数据存储为 avro 文件。文件结构如下:
DIR--
--Subdir1
--Subdir2
--Subdir3
--Subdir4
在 pig 脚本中,我只是在执行加载、过滤和存储。看起来像:
items = LOAD path USING AvroStorage()
items = FILTER items BY some property
STORE items into outputDirectory using AvroStorage()
现在的问题是 pig 在输出目录中输出了很多空文件。我想知道是否有办法删除这些文件?谢谢!
对于 pig 版本 0.13 及更高版本,您可以设置 pig.output.lazy=true 以避免创建空文件。 (https://issues.apache.org/jira/browse/PIG-3299)