如何在 aws emr 上使用 -t ColumnMapKeyPrune 启动猪

How to start pig with -t ColumnMapKeyPrune on aws emr

在我的 pig 脚本中,我希望每条记录都有文件名以进行进一步处理,因此我使用了 -tagFile 选项。现在,在使用 -tagFile 选项后,列名称变得不对齐,所以我在引用此博客后使用以下命令仅获取所需的列:http://www.webopius.com/content/764/resolved-apache-pig-with-tagsource-tagfile-option-generates-incorrect-columns

pig -x mapreduce -t ColumnMapKeyPrune

现在我想 运行 AWS EMR 上的脚本,但我不确定如何在 EMR 上启用此 -t ColumnMapKeyP运行e 选项猪.?

我正在使用 AWS CLI 创建 aws 集群并提交作业。 关于如何在 EMR Pig 上启用 -t ColumnMapKeyP运行e 的任何指针。?

我得到了解决方案。我需要在猪脚本中添加以下行:

set pig.optimizer.rules.disabled 'ColumnMapKeyPrune';