使用 S3DistCp 将文件从 S3 复制到 EMR

Question

我正在努力寻找在我的 AWS EMR 集群中使用 S3DistCp 的方法。

一些显示如何将 s3distcp 添加为 EMR 步骤的旧示例使用不再使用的 elastic-mapreduce 命令。

一些其他来源建议使用 s3-dist-cp 命令，该命令在当前 EMR 集群中找不到。甚至官方文档（online 和 EMR 开发人员指南 2016 pdf）也提供了这样的示例：

aws emr add-steps --cluster-id j-3GYXXXXXX9IOK --steps Type=CUSTOM_JAR,Name="S3DistCp step",Jar=/home/hadoop/lib/emr-s3distcp-1.0.jar,Args=["--s3Endpoint,s3-eu-west-1.amazonaws.com","--src,s3://mybucket/logs/j-3GYXXXXXX9IOJ/node/","--dest,hdfs:///output","--srcPattern,.*[azA-Z,]+"]

但是 /home/hadoop 路径中没有 lib 文件夹。我在此文件夹中找到了一些 hadoop 库：/usr/lib/hadoop/lib，但我无法从任何地方找到 s3distcp。

然后我发现在一些S3 bucket中有一些可用的库。比如从这个question，我找到了这个路径：s3://us-east-1.elasticmapreduce/libs/s3distcp/1.latest/s3distcp.jar。这似乎是朝着正确方向迈出的一步，因为使用这些参数从 AWS 界面向运行ning EMR 集群添加一个新步骤启动了该步骤（之前的尝试没有）但在 ~ 之后失败了15 秒：

JAR location: s3://us-east-1.elasticmapreduce/libs/s3distcp/1.latest/s3distcp.jar
Main class: None
Arguments: --s3Endpoint s3-eu-west-1.amazonaws.com --src s3://source-bucket/scripts/ --dest hdfs:///output
Action on failure: Continue

这导致了以下错误：

Exception in thread "main" java.lang.RuntimeException: Unable to retrieve Hadoop configuration for key fs.s3n.awsAccessKeyId
    at com.amazon.external.elasticmapreduce.s3distcp.ConfigurationCredentials.getConfigOrThrow(ConfigurationCredentials.java:29)
    at com.amazon.external.elasticmapreduce.s3distcp.ConfigurationCredentials.<init>(ConfigurationCredentials.java:35)
    at com.amazon.external.elasticmapreduce.s3distcp.S3DistCp.createInputFileListS3(S3DistCp.java:85)
    at com.amazon.external.elasticmapreduce.s3distcp.S3DistCp.createInputFileList(S3DistCp.java:60)
    at com.amazon.external.elasticmapreduce.s3distcp.S3DistCp.run(S3DistCp.java:529)
    at com.amazon.external.elasticmapreduce.s3distcp.S3DistCp.run(S3DistCp.java:216)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:84)
    at com.amazon.external.elasticmapreduce.s3distcp.Main.main(Main.java:12)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:606)
    at org.apache.hadoop.util.RunJar.run(RunJar.java:221)
    at org.apache.hadoop.util.RunJar.main(RunJar.java:136)

我认为这可能是由于我的 S3 位置（与端点相同）与来自 us-east 的 s3distcp 脚本的位置不兼容造成的。我用 eu-west-1 替换了它，但仍然遇到关于身份验证的相同错误。我使用了与运行我的 scala 脚本类似的设置（带有 "command-runner.jar" 脚本的自定义 jar 类型，第一个参数 "spark-submit" 到运行一个 spark 作业，这有效，我有以前的身份验证没有这个问题。

将文件从 S3 复制到 EMR 集群的最简单方法是什么？ 通过使用 AWS SDK（对于 Go lang）添加额外的 EMR 步骤或者以某种方式在斯卡拉火花脚本？或者来自 AWS EMR 界面，但不是来自 CLI，因为我需要它自动化。

Answer 1

EMR 中安装的 CLI 是 aws <servicename> <function>:

aws s3 cp s3://bucket/path/to/remote/file.sh /local/path/to/file.sh

https://aws.amazon.com/cli/

就自动化而言，将命令放入自定义步骤中当然是合理的，其中命令的 "path" 只是 "command-runner.jar" 然后步骤的 arg 是命令本身.

所以，最终，CLI 代码可以做同样的事情：

aws emr add-steps --cluster-id j-2AXXXXXXGAPLF --steps Name="Command Runner",Jar="command-runner.jar",Args=["spark-submit","Args..."]

http://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/emr-commandrunner.html

Answer 2

aws emr add-steps --profile <> --cluster-id <> --steps Type=CUSTOM_JAR,Name=UPLOAD_JAR_CONFIG,ActionOnFailure=CANCEL_AND_WAIT,Jar=command-runner.jar,Args=[s3-dist-cp,--src,s3a://<>/,--dest,hdfs:///<>/<>/,--srcPattern=.*.*]

感谢之前的回答。我被卡住了，但能够构建它以使用 dist-cp 从 s3

复制到 emr

使用 S3DistCp 将文件从 S3 复制到 EMR

Use S3DistCp to copy file from S3 to EMR

amazon-s3

amazon-emr

elastic-map-reduce

aws-sdk

s3distcp