kubernetes 是否支持使用本地 GPU 机器设置集群

Does kubernetes support setting up cluster with on-premise GPU machines

我们现在正在购买 GPU 机器,并将它们用于 运行 机器学习训练。由producerqueue和N*workers组成的计划系统架构为:

  1. producer(一种大师)将训练请求排入队列。
  2. N workers 监控队列以便它提取请求(如果有)然后 运行 训练。

我的问题是关于设置工人,这应该是 运行 在我们将购买的 GPU 机器上。所以我想知道 kubernetes 是否支持通过本地 GPU 机器设置集群。

最佳,

发布社区 wiki 以提高知名度。随意扩展它。


Kubernetes 支持通过 Device Plugins 访问节点的 GPU(AMD 或 NVIDIA)。

值得注意的是,此支持目前处于试验阶段。

Kubernetes includes experimental support for managing AMD and NVIDIA GPUs (graphical processing units) across several nodes.

有关详细信息,请参阅 official documentation