当一个节点发生 OOM 时,集群变得无响应
Cluster Becomes Unresponsive When One Node gores OOM
我们使用 Hazelcast 3.4.2 创建了一个包含三个节点的集群,我正在
以下问题。
如果一个节点出现 OOM,其他节点将无响应。有时那些节点
(除了 OOM 的那个)设法恢复,但是恢复时间不可预测。
此外,我们还添加了以下两个 Hazelcast 属性作为 JVM 参数。但是,问题仍然存在于集群中。
- hazelcast.client.heartbeat.timeout
- hazelcast.max.no.heartbeat.seconds
请注意,通过为以上两个 Hazelcast 属性提供几个不同的值,集群已启动多次。
所以我想知道这是否是已知问题。另外,如果上述情况
是一个已知问题,我们是否有解决此问题的方法。
谢谢
你们的成员有足够的空间吗?当一个成员出现故障时,必须将相同数量的数据分配给更少的成员。这可能会对他们造成内存压力。我建议启用详细的 GC 日志并测试您的场景。
我们使用 Hazelcast 3.4.2 创建了一个包含三个节点的集群,我正在 以下问题。
如果一个节点出现 OOM,其他节点将无响应。有时那些节点 (除了 OOM 的那个)设法恢复,但是恢复时间不可预测。
此外,我们还添加了以下两个 Hazelcast 属性作为 JVM 参数。但是,问题仍然存在于集群中。
- hazelcast.client.heartbeat.timeout
- hazelcast.max.no.heartbeat.seconds
请注意,通过为以上两个 Hazelcast 属性提供几个不同的值,集群已启动多次。
所以我想知道这是否是已知问题。另外,如果上述情况 是一个已知问题,我们是否有解决此问题的方法。
谢谢
你们的成员有足够的空间吗?当一个成员出现故障时,必须将相同数量的数据分配给更少的成员。这可能会对他们造成内存压力。我建议启用详细的 GC 日志并测试您的场景。