协助减少 distcp 操作的执行时间

Asisstance in reducing execution time of distcp operation

我们有许多 distcp 作业将数据从我们的主集群复制到我们的备份集群。这些工作 运行 一整天,并复制关键数据库的几乎所有表。我们这里使用webhdfs。

其中一些工作 运行 数小时(对于表(ORC 格式的))非常大。我们有什么方法可以优化两个集群之间的 distcp 操作。 欢迎提出任何建议。

我们尝试使用带宽来加速。以下是我们脚本的摘录。

PROP="-Dmapreduce.task.timeout=300000 -Dmapred.job.queue.name=$YARN_QUEUE -Dmapred.job.name="cpy-${jobName}" -带宽 800 "

hadoop distcp ${PROP} $1 WEBHDFS://$DESTNAMENODE$2 >> $3 2>&1

调优 distcp 性能时我通常会注意的三件事;

  • 用于 distcp 操作的映射器数量

“-m”选项将允许您指定使用的映射任务数,可以说是同时复制的最大数量。尝试 运行 多次复制副本并逐渐增加此数字以查看最适合您的情况的方法。

  • 策略动态

您可以 运行 带有“-strategy dynamic”标志的 DistCp 作业将“动态”调整地图大小,使更快或响应更快的节点能够比速度较慢或繁忙的节点复制更多数据。您可以在 DistCp 手册中阅读更多相关信息。

  • 带宽

看起来您已经尝试过“-bandwidth”选项,但我想在这里提及它,因为它绝对是一个重要因素。如果您的网络允许,请尝试进一步增加它。