ray tune 中是否有`initial_workers` (cluster.yaml) 替换机制?
Is there an `initial_workers` (cluster.yaml) replacement mechanism in ray tune?
我简要描述一下我的用例:假设我想在 AWS 上启动一个有 10 个工作人员的集群:
过去,我总是使用 initial_workers: 10
、min_workers: 0
、max_workers: 10
选项 (cluster.yaml
) 来初始将集群启动到满负荷,然后利用基于集群的自动缩减在空闲时间。因此,在作业结束时,几乎所有试验都已终止并且不再需要集群的全部容量,节点将自动删除。
现在 initial_workers
选项消失了 #12444,我不太清楚如何完成相同的缩小行为。
我在 tune.run
之前和之后尝试了请求资源 (ray.autoscaler.sdk.request_resources
) 的编程方式,但这似乎与设置 min_workers
字段相同,我只能缩小比例所有作业终止后的集群。
我也尝试设置 upscaling_speed
但由于某种原因升级非常缓慢并且似乎一次只添加一个节点(我正在请求 GPU)。也总是只有一项我还没有真正理解的未决任务(不幸的是,我也没有真正有时间对此进行全面调查:()
目前我正在使用上面描述的编程方式,它工作正常,但在工作结束时我有很多闲置资源,运行 数小时后我才能缩小规模。
如果有人能指出正确的方向来解决这个问题,那就太好了。
感谢
在 ray
版本 1.30 中,我观察到的自动缩放器问题似乎已得到解决,现在集群按预期随着待定试验进行缩放(使用 AWS ec2 g4dn 实例)。所以不再需要 intial_workers
选项。
我简要描述一下我的用例:假设我想在 AWS 上启动一个有 10 个工作人员的集群:
过去,我总是使用 initial_workers: 10
、min_workers: 0
、max_workers: 10
选项 (cluster.yaml
) 来初始将集群启动到满负荷,然后利用基于集群的自动缩减在空闲时间。因此,在作业结束时,几乎所有试验都已终止并且不再需要集群的全部容量,节点将自动删除。
现在 initial_workers
选项消失了 #12444,我不太清楚如何完成相同的缩小行为。
我在 tune.run
之前和之后尝试了请求资源 (ray.autoscaler.sdk.request_resources
) 的编程方式,但这似乎与设置 min_workers
字段相同,我只能缩小比例所有作业终止后的集群。
我也尝试设置 upscaling_speed
但由于某种原因升级非常缓慢并且似乎一次只添加一个节点(我正在请求 GPU)。也总是只有一项我还没有真正理解的未决任务(不幸的是,我也没有真正有时间对此进行全面调查:()
目前我正在使用上面描述的编程方式,它工作正常,但在工作结束时我有很多闲置资源,运行 数小时后我才能缩小规模。
如果有人能指出正确的方向来解决这个问题,那就太好了。
感谢
在 ray
版本 1.30 中,我观察到的自动缩放器问题似乎已得到解决,现在集群按预期随着待定试验进行缩放(使用 AWS ec2 g4dn 实例)。所以不再需要 intial_workers
选项。