如何在 aws emr 上使用 -t ColumnMapKeyPrune 启动猪

Question

在我的 pig 脚本中，我希望每条记录都有文件名以进行进一步处理，因此我使用了 -tagFile 选项。现在，在使用 -tagFile 选项后，列名称变得不对齐，所以我在引用此博客后使用以下命令仅获取所需的列：http://www.webopius.com/content/764/resolved-apache-pig-with-tagsource-tagfile-option-generates-incorrect-columns

pig -x mapreduce -t ColumnMapKeyPrune

现在我想运行 AWS EMR 上的脚本，但我不确定如何在 EMR 上启用此 -t ColumnMapKeyP运行e 选项猪.?

我正在使用 AWS CLI 创建 aws 集群并提交作业。关于如何在 EMR Pig 上启用 -t ColumnMapKeyP运行e 的任何指针。?

Answer 1

我得到了解决方案。我需要在猪脚本中添加以下行：

set pig.optimizer.rules.disabled 'ColumnMapKeyPrune';

How to start pig with -t ColumnMapKeyPrune on aws emr