pcs 在同时启动两台机器时在主节点中启动它们之前不会停止伙伴节点中的故障转移资源
pcs does not stop the failover resources in partner node before it starts them in main node while booting both machines at same time
我最近开始研究集群,如果您需要更多信息,请告诉我。
我有一个主动-主动 HA 集群。它设计用于在故障转移情况下工作。
我将 Node1 和 Node2 作为双活集群。 pacemaker 和 corosync 用作集群管理器。两个节点都有 1 个资源组,每个有 3 个资源。
当 Node1 宕机时,Node2 按预期接管其资源。当 Node1 重新联机时,pcs 首先停止 node2 中的 node1 资源,然后在 node1 中启动它们,这也是预期的并且工作正常。
问题:
当同时启动两个节点时遇到问题。
场景:
当两个节点都关闭电源然后同时打开电源时。假设 Node2 首先启动,然后 PCS 看到 node1 仍然离线(仍在启动)并在 node2.Then 中启动 node1 资源它也在 node2
中启动自己的资源
所以当 node1 完全启动时,它会启动自己的资源。这里的问题是在它开始之前它没有停止当前在 node2 中启动(故障转移)的 node1 资源。
所以最后 node1 的资源在 node1 中启动,node2 的 node1 和 node2 资源也在 node2 中启动。
当它们以时差(15 分钟)启动时,不会发生上述情况。当只有一个节点重新启动或关闭电源时,它也可以正常工作。
# pcs property list --all
Cluster Properties:
batch-limit: 0
cluster-delay: 60s
cluster-infrastructure: cman
cluster-recheck-interval: 15min
crmd-finalization-timeout: 30min
crmd-integration-timeout: 3min
crmd-transition-delay: 0s
dc-deadtime: 20s
dc-version: 1.1.11-97629de
default-action-timeout: 20s
default-resource-stickiness: 0
election-timeout: 2min
enable-startup-probes: true
expected-quorum-votes: 2
is-managed-default: true
last-lrm-refresh: 1565098302
load-threshold: 80%
maintenance-mode: false
migration-limit: -1
no-quorum-policy: ignore
node-action-limit: 0
node-health-green: 0
node-health-red: -INFINITY
node-health-strategy: none
node-health-yellow: 0
pe-error-series-max: -1
pe-input-series-max: 4000
pe-warn-series-max: 5000
placement-strategy: default
remove-after-stop: false
shutdown-escalation: 20min
start-failure-is-fatal: true
startup-fencing: true
stonith-action: reboot
stonith-enabled: false
stonith-timeout: 60s
stop-all-resources: false
stop-orphan-actions: true
stop-orphan-resources: true
symmetric-cluster: false
我使用 pcs 0.9.155 版本解决了这个问题。
旧PC版本在同时重启时出现此错误。
我最近开始研究集群,如果您需要更多信息,请告诉我。
我有一个主动-主动 HA 集群。它设计用于在故障转移情况下工作。
我将 Node1 和 Node2 作为双活集群。 pacemaker 和 corosync 用作集群管理器。两个节点都有 1 个资源组,每个有 3 个资源。
当 Node1 宕机时,Node2 按预期接管其资源。当 Node1 重新联机时,pcs 首先停止 node2 中的 node1 资源,然后在 node1 中启动它们,这也是预期的并且工作正常。
问题: 当同时启动两个节点时遇到问题。
场景: 当两个节点都关闭电源然后同时打开电源时。假设 Node2 首先启动,然后 PCS 看到 node1 仍然离线(仍在启动)并在 node2.Then 中启动 node1 资源它也在 node2
中启动自己的资源所以当 node1 完全启动时,它会启动自己的资源。这里的问题是在它开始之前它没有停止当前在 node2 中启动(故障转移)的 node1 资源。
所以最后 node1 的资源在 node1 中启动,node2 的 node1 和 node2 资源也在 node2 中启动。
当它们以时差(15 分钟)启动时,不会发生上述情况。当只有一个节点重新启动或关闭电源时,它也可以正常工作。
# pcs property list --all
Cluster Properties:
batch-limit: 0
cluster-delay: 60s
cluster-infrastructure: cman
cluster-recheck-interval: 15min
crmd-finalization-timeout: 30min
crmd-integration-timeout: 3min
crmd-transition-delay: 0s
dc-deadtime: 20s
dc-version: 1.1.11-97629de
default-action-timeout: 20s
default-resource-stickiness: 0
election-timeout: 2min
enable-startup-probes: true
expected-quorum-votes: 2
is-managed-default: true
last-lrm-refresh: 1565098302
load-threshold: 80%
maintenance-mode: false
migration-limit: -1
no-quorum-policy: ignore
node-action-limit: 0
node-health-green: 0
node-health-red: -INFINITY
node-health-strategy: none
node-health-yellow: 0
pe-error-series-max: -1
pe-input-series-max: 4000
pe-warn-series-max: 5000
placement-strategy: default
remove-after-stop: false
shutdown-escalation: 20min
start-failure-is-fatal: true
startup-fencing: true
stonith-action: reboot
stonith-enabled: false
stonith-timeout: 60s
stop-all-resources: false
stop-orphan-actions: true
stop-orphan-resources: true
symmetric-cluster: false
我使用 pcs 0.9.155 版本解决了这个问题。 旧PC版本在同时重启时出现此错误。