HPC 工作研究和硬件利用率报告

HPC job studies and hardware utilization report

我正在努力寻找有关一般 HPC 集群平均硬件利用率的综合报告。 Google 或 Facebook 提供了有关其云硬件利用率的各种数据集,但是否有任何类似的 report/data-set 我可以从 HPC 中心引用或研究。

我的重点是看看动态和长尾作业如果 运行 通过 SLURM 或 Torque 等粗粒度资源管理器会受到怎样的影响。我知道这两个资源管理器都支持细粒度执行,但它们不像 Mesos 或 Yarn 等资源管理器那样全面 API。

根据定义,HPC 努力达到最大利用率。保持资源繁忙,排满工作,保持健康的积压。 Resoruce/data 中心使用情况,这取决于工作负载的类型。它是内存还是计算,还是 IO 密集型。与其他任何事情一样,在构建 HPC cluster/environment 时也需要权衡取舍。所以一般来说,并不是每一个资源,或者整个集群都会被充分利用。有改进的余地。关于 Mesos 与传统 HPC 调度程序的比较,您是对的。 Mesos 是两级调度器。它更全面,但这并不能阻止人们将它与 Slurm 一起使用或直接与 ad-hoc mpi 一起使用。这就是为什么我问与您相同的问题以使 HPC 数据中心更适应不同工作负载的原因之一。 What HPC can learn from DevOps,它可以在传统调度程序之上使用自定义脚本 "e.g routers, load sensors" 可以在一定程度上自定义和优化 HPC 资源的利用率。 Univa 和 IBM LSF 都有一些可以实现这一目标的商业产品。

没有多少 HPC 中心会发布详细的 public 使用情况报告。例外通常是英国国家 HPC 设施,它们提供了大量有关其历史使用的数据。

当前服务 ARCHER 在以下位置发布 2014 年至今的月度和季度数据(包括使用情况):

http://www.archer.ac.uk/about-archer/reports/

之前的服务 HECToR 在 2007-2014 年提供了类似的数据:

http://www.hector.ac.uk/about-us/reports/

之前的服务 HPCx 具有 2002-2010 年的数据:

http://www.hpcx.ac.uk/projects/reports/

这应该为您提供了大约 15 年的数据供您检查!