如何在 AI 平台上同时 运行 多个 GPU 加速训练作业
How to run multiple GPU-accelerated Training Jobs concurrently on AI-Platform
我在 AI Platform 上使用 "scaleTier": "BASIC_GPU"
设置 运行 tensorflow 训练作业。我的理解是此设置使用单个 Tesla K80 GPU 来完成我的工作。
在另一个作业已经 运行 时创建新作业似乎会导致新创建的作业被放入队列中,直到 运行 作业完成。当我检查新作业的日志时,我看到这条消息:
This job is number 1 in the queue and requires 8.000000 CPUs and 1 K80 accelerators. The project is using 8.000000 CPUs out of 450 allowed and 1 K80 accelerators out of 0 TPU_V2_POD, 0 TPU_V3_POD, 1 K80, 1 P100, 1 V100, 4 P4, 4 T4, 8 TPU_V2, 8 TPU_V3 allowed across all regions.The project is using 8.000000 CPUs out of 20 allowed and 1 K80 accelerators out of 0 TPU_V2_POD, 0 TPU_V3_POD, 1 K80, 1 P100, 1 P4, 1 T4, 1 V100, 8 TPU_V2, 8 TPU_V3 allowed in the region us-central1.
这个AI Platform documentation好像说我的项目应该能够同时使用最多30个K80 GPU。
为什么我连2个都不能同时使用?
我需要做些什么来将我的限制增加到预期的 30 吗?
您的项目管理员似乎对您可以使用的 GPU 数量设置了配额(请注意错误消息说您的配额是 us-central1 中的 20 个 cpus、1 个 K80、1 个 P100),所以工作正在等待 K-80 可用。
两个选项:
(1) 转到 console.cloud.google。com/iam-admin/quotas
查找计算引擎 API 和 K80s
执行“编辑配额”,或要求您的管理员在必要时增加配额。
确保同时编辑所有区域配额和 us-central1 配额。否则,如果管理员给了你每个区域 1 个 GPU,运行 us-west1 等的工作
(2) 看来你有P100可用,所以使用自定义缩放层并指定P100。
对于新项目,默认配额会很低。您可以通过 this form.
请求增加更多配额
我在 AI Platform 上使用 "scaleTier": "BASIC_GPU"
设置 运行 tensorflow 训练作业。我的理解是此设置使用单个 Tesla K80 GPU 来完成我的工作。
在另一个作业已经 运行 时创建新作业似乎会导致新创建的作业被放入队列中,直到 运行 作业完成。当我检查新作业的日志时,我看到这条消息:
This job is number 1 in the queue and requires 8.000000 CPUs and 1 K80 accelerators. The project is using 8.000000 CPUs out of 450 allowed and 1 K80 accelerators out of 0 TPU_V2_POD, 0 TPU_V3_POD, 1 K80, 1 P100, 1 V100, 4 P4, 4 T4, 8 TPU_V2, 8 TPU_V3 allowed across all regions.The project is using 8.000000 CPUs out of 20 allowed and 1 K80 accelerators out of 0 TPU_V2_POD, 0 TPU_V3_POD, 1 K80, 1 P100, 1 P4, 1 T4, 1 V100, 8 TPU_V2, 8 TPU_V3 allowed in the region us-central1.
这个AI Platform documentation好像说我的项目应该能够同时使用最多30个K80 GPU。
为什么我连2个都不能同时使用?
我需要做些什么来将我的限制增加到预期的 30 吗?
您的项目管理员似乎对您可以使用的 GPU 数量设置了配额(请注意错误消息说您的配额是 us-central1 中的 20 个 cpus、1 个 K80、1 个 P100),所以工作正在等待 K-80 可用。
两个选项:
(1) 转到 console.cloud.google。com/iam-admin/quotas 查找计算引擎 API 和 K80s 执行“编辑配额”,或要求您的管理员在必要时增加配额。 确保同时编辑所有区域配额和 us-central1 配额。否则,如果管理员给了你每个区域 1 个 GPU,运行 us-west1 等的工作
(2) 看来你有P100可用,所以使用自定义缩放层并指定P100。
对于新项目,默认配额会很低。您可以通过 this form.
请求增加更多配额