如何为 Amazon EMR 上的 Hadoop Streaming 作业加载额外的 JAR
How to load additional JARs for an Hadoop Streaming job on Amazon EMR
TL;DR
如何将其他 JAR 上传或指定到 Amazon Elastic MapReduce (Amazon EMR) 上的 Hadoop 流作业?
长版
我想在 Amazon Elastic MapReduce (Amazon EMR) 上使用 Hadoop 分析一组 Avro 个文件(> 2000 个文件)。这应该是一个简单的练习,通过它我应该对 MapReduce 和 Amazon EMR 有一些信心(我对两者都是新手)。
因为 python 是我最喜欢的语言,所以我决定使用 Hadoop Streaming。我在 python 中构建了一个简单的映射器和缩减器,并在本地 Hadoop(单节点安装)上对其进行了测试。我在本地 Hadoop 安装上发出的命令是这样的:
$HADOOP_PREFIX/bin/hadoop jar $HADOOP_PREFIX/share/hadoop/tools/lib/hadoop-streaming-2.4.0-amzn-1.jar \
-files avro-1.7.7.jar,avro-mapred-1.7.7.jar \
-libjars avro-1.7.7.jar,avro-mapred-1.7.7.jar \
-input "input" \
-mapper "python2.7 $PWD/mapper.py" \
-reducer "python2.7 $PWD/reducer.py" \
-output "output/outdir" \
-inputformat org.apache.avro.mapred.AvroAsTextInputFormat
作业成功完成。
我在 Amazon S3 上有一个存储桶,其中一个文件夹包含所有输入文件,另一个文件夹包含映射器和缩减器脚本(分别为 mapper.py
和 reducer.py
)。
使用界面我创建了一个小型集群,然后我添加了一个 bootstrap action to install all the required python modules on each node and then I have added an "Hadoop Streaming" step 指定映射器和缩减器脚本在 S3 上的位置。
问题是我对如何上传或在选项中指定两个 JAR - avro-1.7.7.jar
和 avro-mapred-1.7.7.jar
- 没有任何想法运行这份工作?
我试过几种方法:
- 在可选参数中结合使用
-files
标志和 -libjars
;
- 添加另一个 bootstrap 操作,在每个节点上下载 JAR(我已经尝试在节点上的不同位置下载它);
- 我已尝试将 JAR 文件上传到我的存储桶并指定完整的
s3://...
路径作为 -libjars
的参数(注意:Hadoop 主动忽略这些文件,并发出警告)在选项中;
如果我不传递这两个 JAR,作业就会失败(它无法识别 -inputformat
class),但我已经尝试了所有的可能性(及其组合!)我可以想来想去也无济于事。
最后,我弄明白了(当然,这是显而易见的):
这是我的做法:
添加一个 bootstrap 操作,在每个节点上下载 JAR,例如,您可以将 JAR 上传到您的存储桶中,使它们 public 然后执行:
wget https://yourbucket/path/somejar.jar -O $HOME/somejar.jar
wget https://yourbucket/path/avro-1.7.7.jar -O $HOME/avro-1.7.7.jar
wget https://yourbucket/path/avro-mapred-1.7.7.jar -O $HOME/avro-mapred-1.7.7.jar
当您在可选参数 中指定 -libjars
时,使用 绝对 路径 ,因此:
-libjars /home/hadoop/somejar.jar,$HOME/avro-1.7.7.jar,/home/hadoop/avro-mapred-1.7.7.jar
我已经浪费了很多时间,我很惭愧地说,希望这对其他人有帮助。
编辑(2015 年 2 月 10 日)
我已经仔细检查过,我想指出的是,当传递到可选参数字段时,环境变量似乎没有扩展。因此,使用明确的 $HOME 路径(即 /home/hadoop
)
编辑(2015 年 2 月 11 日)
如果您想使用 AWS cli 在 Amazon EMR 上启动流作业,您可以使用以下命令。
aws emr create-cluster --ami-version '3.3.2' \
--instance-groups InstanceGroupType=MASTER,InstanceCount=1,InstanceType='m1.medium' InstanceGroupType=CORE,InstanceCount=2,InstanceType='m3.xlarge' \
--name 'TestStreamingJob' \
--no-auto-terminate \
--log-uri 's3://path/to/your/bucket/logs/' \
--no-termination-protected \
--enable-debugging \
--bootstrap-actions Path='s3://path/to/your/bucket/script.sh',Name='ExampleBootstrapScript' Path='s3://path/to/your/bucket/another_script.sh',Name='AnotherExample' \
--steps file://./steps_test.json
并且您可以在 JSON 文件中指定步骤:
[
{
"Name": "Avro",
"Args": ["-files","s3://path/to/your/mapper.py,s3://path/to/your/reducer.py","-libjars","/home/hadoop/avro-1.7.7.jar,/home/hadoop/avro-mapred-1.7.7.jar","-inputformat","org.apache.avro.mapred.AvroAsTextInputFormat","-mapper","mapper.py","-reducer","reducer.py","-input","s3://path/to/your/input_directory/","-output","s3://path/to/your/output_directory/"],
"ActionOnFailure": "CONTINUE",
"Type": "STREAMING"
}
]
(请注意official Amazon documentation is somewhat outdated, in fact it uses the old Amazon EMR CLI tool which is deprecated in favor of the more recente AWS CLI)
TL;DR
如何将其他 JAR 上传或指定到 Amazon Elastic MapReduce (Amazon EMR) 上的 Hadoop 流作业?
长版
我想在 Amazon Elastic MapReduce (Amazon EMR) 上使用 Hadoop 分析一组 Avro 个文件(> 2000 个文件)。这应该是一个简单的练习,通过它我应该对 MapReduce 和 Amazon EMR 有一些信心(我对两者都是新手)。
因为 python 是我最喜欢的语言,所以我决定使用 Hadoop Streaming。我在 python 中构建了一个简单的映射器和缩减器,并在本地 Hadoop(单节点安装)上对其进行了测试。我在本地 Hadoop 安装上发出的命令是这样的:
$HADOOP_PREFIX/bin/hadoop jar $HADOOP_PREFIX/share/hadoop/tools/lib/hadoop-streaming-2.4.0-amzn-1.jar \
-files avro-1.7.7.jar,avro-mapred-1.7.7.jar \
-libjars avro-1.7.7.jar,avro-mapred-1.7.7.jar \
-input "input" \
-mapper "python2.7 $PWD/mapper.py" \
-reducer "python2.7 $PWD/reducer.py" \
-output "output/outdir" \
-inputformat org.apache.avro.mapred.AvroAsTextInputFormat
作业成功完成。
我在 Amazon S3 上有一个存储桶,其中一个文件夹包含所有输入文件,另一个文件夹包含映射器和缩减器脚本(分别为 mapper.py
和 reducer.py
)。
使用界面我创建了一个小型集群,然后我添加了一个 bootstrap action to install all the required python modules on each node and then I have added an "Hadoop Streaming" step 指定映射器和缩减器脚本在 S3 上的位置。
问题是我对如何上传或在选项中指定两个 JAR - avro-1.7.7.jar
和 avro-mapred-1.7.7.jar
- 没有任何想法运行这份工作?
我试过几种方法:
- 在可选参数中结合使用
-files
标志和-libjars
; - 添加另一个 bootstrap 操作,在每个节点上下载 JAR(我已经尝试在节点上的不同位置下载它);
- 我已尝试将 JAR 文件上传到我的存储桶并指定完整的
s3://...
路径作为-libjars
的参数(注意:Hadoop 主动忽略这些文件,并发出警告)在选项中;
如果我不传递这两个 JAR,作业就会失败(它无法识别 -inputformat
class),但我已经尝试了所有的可能性(及其组合!)我可以想来想去也无济于事。
最后,我弄明白了(当然,这是显而易见的):
这是我的做法:
添加一个 bootstrap 操作,在每个节点上下载 JAR,例如,您可以将 JAR 上传到您的存储桶中,使它们 public 然后执行:
wget https://yourbucket/path/somejar.jar -O $HOME/somejar.jar wget https://yourbucket/path/avro-1.7.7.jar -O $HOME/avro-1.7.7.jar wget https://yourbucket/path/avro-mapred-1.7.7.jar -O $HOME/avro-mapred-1.7.7.jar
当您在可选参数 中指定
-libjars
时,使用 绝对 路径 ,因此:-libjars /home/hadoop/somejar.jar,$HOME/avro-1.7.7.jar,/home/hadoop/avro-mapred-1.7.7.jar
我已经浪费了很多时间,我很惭愧地说,希望这对其他人有帮助。
编辑(2015 年 2 月 10 日)
我已经仔细检查过,我想指出的是,当传递到可选参数字段时,环境变量似乎没有扩展。因此,使用明确的 $HOME 路径(即 /home/hadoop
)
编辑(2015 年 2 月 11 日)
如果您想使用 AWS cli 在 Amazon EMR 上启动流作业,您可以使用以下命令。
aws emr create-cluster --ami-version '3.3.2' \
--instance-groups InstanceGroupType=MASTER,InstanceCount=1,InstanceType='m1.medium' InstanceGroupType=CORE,InstanceCount=2,InstanceType='m3.xlarge' \
--name 'TestStreamingJob' \
--no-auto-terminate \
--log-uri 's3://path/to/your/bucket/logs/' \
--no-termination-protected \
--enable-debugging \
--bootstrap-actions Path='s3://path/to/your/bucket/script.sh',Name='ExampleBootstrapScript' Path='s3://path/to/your/bucket/another_script.sh',Name='AnotherExample' \
--steps file://./steps_test.json
并且您可以在 JSON 文件中指定步骤:
[
{
"Name": "Avro",
"Args": ["-files","s3://path/to/your/mapper.py,s3://path/to/your/reducer.py","-libjars","/home/hadoop/avro-1.7.7.jar,/home/hadoop/avro-mapred-1.7.7.jar","-inputformat","org.apache.avro.mapred.AvroAsTextInputFormat","-mapper","mapper.py","-reducer","reducer.py","-input","s3://path/to/your/input_directory/","-output","s3://path/to/your/output_directory/"],
"ActionOnFailure": "CONTINUE",
"Type": "STREAMING"
}
]
(请注意official Amazon documentation is somewhat outdated, in fact it uses the old Amazon EMR CLI tool which is deprecated in favor of the more recente AWS CLI)