为 Hadoop Distcp 作业设置 YARN 应用程序名称

Set YARN application name for Hadoop Distcp job

注意:我不想像

那样指定 YARN-队列名称

我经常使用 hadoop distcpHDFS 周围移动数据,并希望为这些工作提供一个 描述性应用程序名称


目前所有的复印作业都以 "distcp" 的名称出现在 Resource Manager UI 上,无法区分不同的作业。


有什么办法可以改善吗?

像许多其他 MR 工具一样,hadoop distcp 也允许您使用

-Dmapred.property.name=property-value


所以当我使用

hadoop distcp \
  -Dmapred.job.name=billing_db.replicate \
  -m 10 \
  /user/hive/warehouse/billing_db.db/ \
  s3a://my-s3-bucket/billing_db.db/

它在 Resource Manager UI

上看起来很好


参考资料