当一个节点发生 OOM 时,集群变得无响应

Cluster Becomes Unresponsive When One Node gores OOM

我们使用 Hazelcast 3.4.2 创建了一个包含三个节点的集群,我正在 以下问题。

如果一个节点出现 OOM,其他节点将无响应。有时那些节点 (除了 OOM 的那个)设法恢复,但是恢复时间不可预测。

此外,我们还添加了以下两个 Hazelcast 属性作为 JVM 参数。但是,问题仍然存在于集群中。

  1. hazelcast.client.heartbeat.timeout
  2. hazelcast.max.no.heartbeat.seconds

请注意,通过为以上两个 Hazelcast 属性提供几个不同的值,集群已启动多次。

所以我想知道这是否是已知问题。另外,如果上述情况 是一个已知问题,我们是否有解决此问题的方法。

谢谢

你们的成员有足够的空间吗?当一个成员出现故障时,必须将相同数量的数据分配给更少的成员。这可能会对他们造成内存压力。我建议启用详细的 GC 日志并测试您的场景。