ray tune 中是否有`initial_workers` (cluster.yaml) 替换机制?

Is there an `initial_workers` (cluster.yaml) replacement mechanism in ray tune?

我简要描述一下我的用例:假设我想在 AWS 上启动一个有 10 个工作人员的集群: 过去,我总是使用 initial_workers: 10min_workers: 0max_workers: 10 选项 (cluster.yaml) 来初始将集群启动到满负荷,然后利用基于集群的自动缩减在空闲时间。因此,在作业结束时,几乎所有试验都已终止并且不再需要集群的全部容量,节点将自动删除。 现在 initial_workers 选项消失了 #12444,我不太清楚如何完成相同的缩小行为。

我在 tune.run 之前和之后尝试了请求资源 (ray.autoscaler.sdk.request_resources) 的编程方式,但这似乎与设置 min_workers 字段相同,我只能缩小比例所有作业终止后的集群。 我也尝试设置 upscaling_speed 但由于某种原因升级非常缓慢并且似乎一次只添加一个节点(我正在请​​求 GPU)。也总是只有一项我还没有真正理解的未决任务(不幸的是,我也没有真正有时间对此进行全面调查:()

目前我正在使用上面描述的编程方式,它工作正常,但在工作结束时我有很多闲置资源,运行 数小时后我才能缩小规模。

如果有人能指出正确的方向来解决这个问题,那就太好了。

感谢

ray 版本 1.30 中,我观察到的自动缩放器问题似乎已得到解决,现在集群按预期随着待定试验进行缩放(使用 AWS ec2 g4dn 实例)。所以不再需要 intial_workers 选项。