在 运行 S3DistCp 时设置 HDFS 复制因子

Set HDFS replication factor while running S3DistCp

我正在使用 S3DistCp 将内容从 S3 复制到 Amazon EMR HDFS。对于某些工作,我 运行 超出 space 并且希望通过降低复制因子来解决此问题。但我看不到在工作层面实现这一目标的方法。有人可以帮助解决这个问题吗?

您通常不希望逐个作业地修改集群的复制因子。复制用于数据冗余(在发生故障的情况下)和提高性能(通过使数据更接近计算操作)。最好将群集保留为预定义值。

默认情况下,Amazon EMR 将 1-3 个核心节点的默认复制因子设置为 1,4-9 个核心节点的值为 2,10+ 个核心节点的值为 3。

理论上您可以更改 dfs.replication 设置,但这可能不是解决您当前问题的最佳方法。