在 Amazon EMR 上安装 PIG 0.14

installing PIG 0.14 on Amazon EMR

我需要使用 Hadoop 运行 Python 从 Amazon EMR 上的 PIG 流式传输 UDF 2.x

根据文档 PIG works with Hadoop 2.x since version 0.14 http://pig.apache.org/docs/r0.12.0/udf.html#python-udfs http://pig.apache.org/docs/r0.14.0/udf.html#python-udfs

我个人尝试过 Python 流式 UDF 在 0.12 上不起作用,并且根据 0.14 文档中缺少的注释,在我看来它应该在这个版本中起作用。

在 Amazon EMR 文档中看到受支持的 PIG 版本,在我看来,只有低于 0.12 的受支持 PIG http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/Pig_SupportedVersions.html

所以我的问题是,是否有人对如何可能 "hacked" 或将 PIG 0.14 部署到 EMR 集群有一些想法或经验?如果确实有 Python UDFs with Hadoop 2.x with PIG 0.14(只是想知道有问题的 PIG 0.14 安装是否值得)?

所以最后我解决了这个问题,只需将 pig 0.14 下载到 bootstrap 脚本中的所有机器,并用我在 ~/.bashrc 中的 pig 0.14 位置覆盖 PIG_HOME它对我有用。 (至少当我通过 ssh 连接到 master 时使用 pig 0.14)