使用 s3-dist-cp 时是否可以指定 mappers-reducers 的数量?

Is it possible to specify the number of mappers-reducers while using s3-dist-cp?

我正在尝试使用 s3-distcp 将数据从 EMR 集群复制到 S3。我可以将减速器的数量指定为比默认值更大的值以加快我的进程吗?

使用 S3DistCp,您可以高效地将大量数据从 Amazon S3 复制到 HDFS 中,然后由 Amazon EMR 集群中的后续步骤进行处理。

您可以通过将 S3DistCp 添加为现有 EMR 集群中的一个步骤来调用它。可以在启动时将步骤添加到集群,或使用控制台、AWS CLI 或 API 添加到 运行 集群。

因此您在创建 EMR 集群或 you can resize existing cluster. You can check exact steps in EMR docs 期间控制 worker 的数量。

要设置减速器的数量,您可以使用类似于下面的属性 mapreduce.job.reduces

s3-dist-cp -Dmapreduce.job.reduces=10 --src hdfs://path/to/data/ --dest s3://path/to/s3/