Presto dashboard + presto workers 机器不稳定
Presto dashboard + presto workers machines are not stable
我们注意到我们的 presto 集群(presto 安装在 Linux 台机器上)出现以下奇怪行为
我们有 9 台 presto worker 机器,
从 presto 仪表板我们可以看到,有时有 7-8
个活跃的工作人员,有时所有 presto 工作人员 - 9
这是正常行为吗?
从 presto workers 日志中我看不出有什么不寻常的地方
而且我不确定我们是否需要搜索任何网络问题或任何其他问题?
注意 - 当我重新启动所有 presto worker 时,重新启动后 presto worker 在仪表板上稳定,但在 5-10
小时后我们再次出现奇怪的行为,我们对这种情况无能为力,
注意 1 - 我们检查 presto 二进制文件是否意外重启 - 但事实并非如此,所有 presto worker 二进制文件都是稳定的
./launcher status
Running as 22815
我必须另外说一下,Presto 仪表板不显示哪个 presto workers 宕机了,所以很难理解哪些是 "bad" presto workers,
*** 在 presto 协调器日志中 - 我们可以看到这样的消息:
- but not sure this are related to our issues?
WARN http-client-memoryManager-scheduler com.facebook.presto.memory.RemoteNodeMemory Error fetching memory info from http://105.14.25.4:1010/v1/memory: java.util.concurrent.TimeoutException: Total timeout 10000 ms elapsed
对于我的问题给您带来的不便,我深表歉意
其实这是我的错误,我会解释
在这个 presto 集群中,我们有 9 个 presto worker
但我忘记从其他集群中删除相同主机名的workers
所以这种行为是因为 3 个重复的主机名(presto workers)
去除重复的presto worker后,presto非常稳定
我们注意到我们的 presto 集群(presto 安装在 Linux 台机器上)出现以下奇怪行为
我们有 9 台 presto worker 机器,
从 presto 仪表板我们可以看到,有时有 7-8
个活跃的工作人员,有时所有 presto 工作人员 - 9
这是正常行为吗?
从 presto workers 日志中我看不出有什么不寻常的地方
而且我不确定我们是否需要搜索任何网络问题或任何其他问题?
注意 - 当我重新启动所有 presto worker 时,重新启动后 presto worker 在仪表板上稳定,但在 5-10
小时后我们再次出现奇怪的行为,我们对这种情况无能为力,
注意 1 - 我们检查 presto 二进制文件是否意外重启 - 但事实并非如此,所有 presto worker 二进制文件都是稳定的
./launcher status
Running as 22815
我必须另外说一下,Presto 仪表板不显示哪个 presto workers 宕机了,所以很难理解哪些是 "bad" presto workers,
*** 在 presto 协调器日志中 - 我们可以看到这样的消息:
- but not sure this are related to our issues?
WARN http-client-memoryManager-scheduler com.facebook.presto.memory.RemoteNodeMemory Error fetching memory info from http://105.14.25.4:1010/v1/memory: java.util.concurrent.TimeoutException: Total timeout 10000 ms elapsed
对于我的问题给您带来的不便,我深表歉意
其实这是我的错误,我会解释
在这个 presto 集群中,我们有 9 个 presto worker
但我忘记从其他集群中删除相同主机名的workers
所以这种行为是因为 3 个重复的主机名(presto workers)
去除重复的presto worker后,presto非常稳定