无法发送获取核心工作人员统计信息请求

Failed to send get core worker stats request

我在本地用不同的机器测试 ray。他们中的大多数人 运行 都很好,但其中一个 (pid=raylet) E0515 16:26:30.978312 358451 node_manager.cc:3537] Failed to send get core worker stats request: IOError: 8: Sent message larger than max (290460356 vs. 104857600) 得到了这个警告。而且这台机器的性能低于其他机器。他们之间有什么联系吗?

当 Ray head 集群初始化时,它会启动一个 built-in 仪表板,用于收集整个集群的指标。我想由于您的集群非常大,因此其中一些请求超过了最大请求大小。

在这种情况下,您可以关闭仪表板。您可以通过在启动头节点时设置参数 --include-web-ui 来执行此操作。例如,

如果从脚本启动头节点。

ray.init(include_webui=False)

如果使用命令行工具启动头节点

ray start --include-webui=False