当一个节点发生 OOM 时，集群变得无响应

Cluster Becomes Unresponsive When One Node gores OOM

我们使用 Hazelcast 3.4.2 创建了一个包含三个节点的集群，我正在以下问题。

如果一个节点出现 OOM，其他节点将无响应。有时那些节点（除了 OOM 的那个）设法恢复，但是恢复时间不可预测。

此外，我们还添加了以下两个 Hazelcast 属性作为 JVM 参数。但是，问题仍然存在于集群中。

请注意，通过为以上两个 Hazelcast 属性提供几个不同的值，集群已启动多次。

所以我想知道这是否是已知问题。另外，如果上述情况是一个已知问题，我们是否有解决此问题的方法。

谢谢

你们的成员有足够的空间吗？当一个成员出现故障时，必须将相同数量的数据分配给更少的成员。这可能会对他们造成内存压力。我建议启用详细的 GC 日志并测试您的场景。