RDQM IBM Pacemaker 问题 - HA 队列管理器不在 运行 它应该在的位置

RDQM IBM Pacemaker prob - HA queue manager is not running where it should be

我遇到了一些奇怪的 RDQM 行为。 我们有 3 个服务器(node1:主节点,node2 和 node3:辅助节点)。 4 个 QM,每个 1G,在首选位置 node1 和 node2 的主节点上创建。 由于一些问题(我认为是连接问题),1 QM 在 node3 上切换为主。 pacemaker 表示 node3 是它的 master,其他节点是 Slaves。我尝试重新启动 node3,但一旦可以访问,QM 就会切换回 node3。

我试过用其他 QM 重现这个问题,但这是不可能的。 您认为问题的根源是什么?

有许多可能的原因导致高可用性 queue 管理器未在您期望的节点上 运行,一个常见的原因是资源操作失败。如果你 运行 crm status 命令,你可能会看到一个“失败的资源操作”部分,它可能详细说明了一个失败的资源操作,阻止了 queue 管理器 运行 宁其首选节点。

我的其余回答假设您确实有失败的资源操作(即您看到“失败的资源操作”部分)。

阅读它周围的文字有时会提示您有一个潜在的问题需要解决。有时,您可以在失败操作时从系统日志或 dmesg 中找到有关潜在问题的更多线索。如果失败的资源操作具有“exitreason”,请尝试在系统日志和 dmesg.

中搜索部分文本

解决任何未决问题(如果有的话)后,通过 运行ning crm resource cleanup RESOURCE 清除失败的资源操作,将“RESOURCE”替换为资源名称失败(例如 'p_fs_haqm1' 或 'haqm1'。N.b。失败的资源操作的名称将以资源名称为前缀)。可能有多个失败的资源,因此您需要为每个资源发出命令。请注意,如果未解决潜在问题,则操作可能会再次失败,这将通过重新发布 crm status.

来查看

有关更多信息,请访问 https://www.ibm.com/support/knowledgecenter/SSFKSJ_latest/com.ibm.mq.tro.doc/q133450_.htm(记住将“版本或产品”更改为您的 MQ 版本),您会在其中找到标题为“Pacemaker 场景 2:RDQM HA queue 管理器的部分not 运行ning where it should be",这比我的回答更详细。

问题终于解决了,请确认以下信息。

这是网络问题。法定人数丢失,我们不得不手动干预来解决问题。

执行的操作如下:

  • drbdadm disconnect mq6 # 在所有服务器上
  • 主节点上的crm资源清理mq6#
  • drbdadm connect mq6 # 在所有服务器上

我能够通过这种方式解决问题。