ray tune 中是否有`initial_workers` (cluster.yaml) 替换机制？

Is there an `initial_workers` (cluster.yaml) replacement mechanism in ray tune?

ray
ray-tune

我简要描述一下我的用例：假设我想在 AWS 上启动一个有 10 个工作人员的集群：过去，我总是使用 initial_workers: 10、min_workers: 0、max_workers: 10 选项 (cluster.yaml) 来初始将集群启动到满负荷，然后利用基于集群的自动缩减在空闲时间。因此，在作业结束时，几乎所有试验都已终止并且不再需要集群的全部容量，节点将自动删除。现在 initial_workers 选项消失了 #12444，我不太清楚如何完成相同的缩小行为。

我在 tune.run 之前和之后尝试了请求资源 (ray.autoscaler.sdk.request_resources) 的编程方式，但这似乎与设置 min_workers 字段相同，我只能缩小比例所有作业终止后的集群。我也尝试设置 upscaling_speed 但由于某种原因升级非常缓慢并且似乎一次只添加一个节点（我正在请求 GPU）。也总是只有一项我还没有真正理解的未决任务（不幸的是，我也没有真正有时间对此进行全面调查:()

目前我正在使用上面描述的编程方式，它工作正常，但在工作结束时我有很多闲置资源，运行数小时后我才能缩小规模。

如果有人能指出正确的方向来解决这个问题，那就太好了。

感谢

在 ray 版本 1.30 中，我观察到的自动缩放器问题似乎已得到解决，现在集群按预期随着待定试验进行缩放（使用 AWS ec2 g4dn 实例）。所以不再需要 intial_workers 选项。

ray tune 中是否有`initial_workers` (cluster.yaml) 替换机制？

Is there an `initial_workers` (cluster.yaml) replacement mechanism in ray tune?

ray

ray-tune