运行 更大的 YARN 作业的主要限制是什么?我该如何增加它?

What is the main constraint on running larger YARN jobs and how do I increase it?

运行更大的 YARN 作业(Hadoop 版本 HDP-3.1.0.0 (3.1.0.0-78))的主要限制是什么?如何增加它? 基本上,想同时做更多(所有这些都非常大)sqoop 作业

我目前假设我需要增加资源管理器堆大小(因为这是我在 运行 YARN 时在 Ambari 仪表板上看到的职位)。如何向 RM 堆添加更多资源/为什么 RM 堆似乎只占整个集群可用总 RAM(对于 YARN?)的一小部分?

在Ambari中查看:YARN集群内存为55GB,而RM堆只有900MB。 任何有更多经验的人都可以告诉我有什么区别,哪个是 运行 增加更多 YARN 应用程序的限制因素(同样,我如何增加它)?还有什么我应该看的吗?任何文档对此进行更详细的解释?

调整 YARN 和 MapReduce 内存的便捷方法是使用 yarn-utils 脚本。

下载配套文件 ## Ref

wget http://public-repo-1.hortonworks.com/HDP/tools/2.6.0.3/hdp_manual_install_rpm_helper_files-2.6.0.3.8.tar.gz

tar zxvf hdp_manual_install_rpm_helper_files-2.6.0.3.8.tar.gz

正在执行 YARN 实用程序脚本 ## Ref

你可以执行yarn-utils.py python 脚本通过提供可用核心,可用内存,磁盘数量,是否安装HBase。

如果您有一个异构的 Hadoop 集群,那么您必须根据节点规范创建配置组。如果您需要更多信息,请告诉我,我会根据此更新我的答案。