如何防止apache pig输出空文件?

How to prevent Apache pig from outputting empty files?

我有一个从 HDFS 上的目录读取数据的 pig 脚本。数据存储为 avro 文件。文件结构如下:

DIR--
   --Subdir1
   --Subdir2
   --Subdir3
   --Subdir4

在 pig 脚本中,我只是在执行加载、过滤和存储。看起来像:

items = LOAD path USING AvroStorage()
items = FILTER items BY some property
STORE items into outputDirectory using AvroStorage()

现在的问题是 pig 在输出目录中输出了很多空文件。我想知道是否有办法删除这些文件?谢谢!

对于 pig 版本 0.13 及更高版本,您可以设置 pig.output.lazy=true 以避免创建空文件。 (https://issues.apache.org/jira/browse/PIG-3299)