未触发 redis sentinel 客户端重新配置脚本

Question

我已经在 linux debian（使用 stretch backports：redis v4.0.2）上设置了一个带有 HA 哨兵监控的 redis 主从集群。

Sentinel 运行良好，当我关闭三个节点之一时，另一个节点被选为新的主节点。

现在我尝试设置一个重新配置脚本来通知客户新的主人。

我在 /var/redis/test.sh 中创建了一个可读且可执行的 (chmod a+rx) 脚本，然后我在 /etc/redis/sentinel.conf:[=14= 的 3 个哨兵节点中添加了这样一行]

sentinel client-reconfig-script mymaster /var/redis/test.sh

使用 sentinel master mymaster 命令查看 sentinel 配置，我可以确认 client-reconfig-script 已正确配置：

10.2.0.6:26379> sentinel master mymaster
...
43) "client-reconfig-script"
44) "/var/redis/test.sh"

但是，当发生故障转移时，不会触发我的重新配置脚本。我想知道为什么。这是哨兵日志：

29765:X 16 Oct 23:03:11.724 # Executing user requested FAILOVER of 'mymaster'
29765:X 16 Oct 23:03:11.724 # +new-epoch 480
29765:X 16 Oct 23:03:11.724 # +try-failover master mymaster 10.2.0.7 6379
29765:X 16 Oct 23:03:11.777 # +vote-for-leader 5a0661a5982701465a387b4872cfa4c576edbd38 480
29765:X 16 Oct 23:03:11.777 # +elected-leader master mymaster 10.2.0.7 6379
29765:X 16 Oct 23:03:11.777 # +failover-state-select-slave master mymaster 10.2.0.7 6379
29765:X 16 Oct 23:03:11.854 # +selected-slave slave 10.2.0.8:6379 10.2.0.8 6379 @ mymaster 10.2.0.7 6379
29765:X 16 Oct 23:03:11.854 * +failover-state-send-slaveof-noone slave 10.2.0.8:6379 10.2.0.8 6379 @ mymaster 10.2.0.7 6379
29765:X 16 Oct 23:03:11.910 * +failover-state-wait-promotion slave 10.2.0.8:6379 10.2.0.8 6379 @ mymaster 10.2.0.7 6379
29765:X 16 Oct 23:03:12.838 # +promoted-slave slave 10.2.0.8:6379 10.2.0.8 6379 @ mymaster 10.2.0.7 6379
29765:X 16 Oct 23:03:12.838 # +failover-state-reconf-slaves master mymaster 10.2.0.7 6379
29765:X 16 Oct 23:03:12.893 * +slave-reconf-sent slave 10.2.0.6:6379 10.2.0.6 6379 @ mymaster 10.2.0.7 6379
29765:X 16 Oct 23:03:13.865 * +slave-reconf-inprog slave 10.2.0.6:6379 10.2.0.6 6379 @ mymaster 10.2.0.7 6379
29765:X 16 Oct 23:03:13.865 * +slave-reconf-done slave 10.2.0.6:6379 10.2.0.6 6379 @ mymaster 10.2.0.7 6379
29765:X 16 Oct 23:03:13.937 # +failover-end master mymaster 10.2.0.7 6379
29765:X 16 Oct 23:03:13.937 # +switch-master mymaster 10.2.0.7 6379 10.2.0.8 6379
29765:X 16 Oct 23:03:13.937 * +slave slave 10.2.0.6:6379 10.2.0.6 6379 @ mymaster 10.2.0.8 6379
29765:X 16 Oct 23:03:13.937 * +slave slave 10.2.0.7:6379 10.2.0.7 6379 @ mymaster 10.2.0.8 6379

我可能缺少配置选项吗？

附加信息：我几周前安装了一个类似的架构（redis 4.0.1）并且它工作了（我的意思是它正在触发我的重新配置脚本），但我做到了不保留配置，所以我可能错过了一些东西。或者...可能是 v4.0.2 中引入的错误？！

Answer 1

终于解决了我的问题

故障转移触发了 "reconfig.sh" 脚本，但我没有意识到这是因为：

哨兵日志记录（即使在调试模式下）对重新配置脚本的执行不是很清楚
重新配置脚本似乎是运行在 chroot 类环境 中，这使我的测试不相关！

这是触发客户端重新配置脚本时的哨兵日志（"script-child" 行）：

32711:X 18 Oct 16:06:42.615 # +failover-state-reconf-slaves master mymaster 10.2.0.6 6379
32711:X 18 Oct 16:06:42.671 * +slave-reconf-sent slave 10.2.0.8:6379 10.2.0.8 6379 @ mymaster 10.2.0.6 6379
32711:X 18 Oct 16:06:42.671 . +script-child 397
32711:X 18 Oct 16:06:42.813 . -script-child 397 0 0

然后我的 reconfig.sh 看起来像这样：

#!/bin/bash
touch /tmp/reconfig
exit 0

=> 当此脚本被 Sentinel 调用时，不要指望找到 /tmp/reconfig 文件！

但是，我仍然不知道它在内部是如何工作的...

Answer 2

如果运行redis用户为'root'，会触发client-reconfig-script .

未触发 redis sentinel 客户端重新配置脚本

redis sentinel client-reconfig-script not triggered

redis

redis-sentinel