Cloudera 5.4.4 Cluster - 获取聚合使用指标
Cloudera 5.4.4 Cluster - Getting aggregate usage metrics
我想从 Cloudera 5.4.4 Hadoop 集群收集汇总使用指标。我心目中的一些指标如下:
- 每天/每周集群的平均 CPU 利用率
- Hadoop 上的前 n 个最长 运行jobs/queries
- 最常使用集群的前 n 个用户(按利用率、提交的作业数)
- 集群磁盘使用率与磁盘容量
- 集群磁盘使用量随时间增长
是否有任何 APIs/resources/tools 等我可以用来开始这个?我不认为我完全确定从哪里开始。任何起点将不胜感激。另外,请分享您在集群使用指标方面的经验(如果有的话)。
提前致谢!
Ganglia 是一个用于大型集群的开源、可扩展和分布式监控系统。它收集、汇总并提供数十个与机器相关的指标的时间序列视图,例如 CPU, memory, storage, network usage
。您可以在 UC Berkeley Grid 看到 Ganglia 的实际应用。
Ganglia 也是监控 Hadoop 和 HBase 集群的流行解决方案,因为 Hadoop(和 HBase)内置支持将其指标发布到 Ganglia。使用 Ganglia,您可以很容易地看到特定 HDSF 数据节点随时间写入的字节数、给定 HBase 区域服务器的块缓存命中率、对 HBase 集群的请求总数、垃圾收集所花费的时间等等其他
ref- http://hakunamapdata.com/ganglia-configuration-for-a-small-hadoop-cluster-and-some-troubleshooting/
我希望这个link(here)可以为2和3提供一些细节。
我想从 Cloudera 5.4.4 Hadoop 集群收集汇总使用指标。我心目中的一些指标如下:
- 每天/每周集群的平均 CPU 利用率
- Hadoop 上的前 n 个最长 运行jobs/queries
- 最常使用集群的前 n 个用户(按利用率、提交的作业数)
- 集群磁盘使用率与磁盘容量
- 集群磁盘使用量随时间增长
是否有任何 APIs/resources/tools 等我可以用来开始这个?我不认为我完全确定从哪里开始。任何起点将不胜感激。另外,请分享您在集群使用指标方面的经验(如果有的话)。
提前致谢!
Ganglia 是一个用于大型集群的开源、可扩展和分布式监控系统。它收集、汇总并提供数十个与机器相关的指标的时间序列视图,例如 CPU, memory, storage, network usage
。您可以在 UC Berkeley Grid 看到 Ganglia 的实际应用。
Ganglia 也是监控 Hadoop 和 HBase 集群的流行解决方案,因为 Hadoop(和 HBase)内置支持将其指标发布到 Ganglia。使用 Ganglia,您可以很容易地看到特定 HDSF 数据节点随时间写入的字节数、给定 HBase 区域服务器的块缓存命中率、对 HBase 集群的请求总数、垃圾收集所花费的时间等等其他
ref- http://hakunamapdata.com/ganglia-configuration-for-a-small-hadoop-cluster-and-some-troubleshooting/
我希望这个link(here)可以为2和3提供一些细节。