领事数据中心：前一个领导节点失败后不会自动选择领导节点

Question

我是 Consul 的新手，我创建了一个具有 2 个服务器节点的数据中心。我按照本文档中提供的步骤操作， https://learn.hashicorp.com/tutorials/consul/deployment-guide?in=consul/datacenter-deploy

节点已成功创建，并且在我启动服务时它们都是同步的。到这一步为止一切正常。

但是，如果领导节点发生故障（离线），我会遇到一个问题。在这种情况下，跟随者节点不会自动承担领导者节点的角色，并且整个 Consul 服务无法访问。即使跟随者节点停止响应请求，即使它仍然是运行.

任何人都可以帮助我了解我的设置到底出了什么问题，以及如何让我的设置继续工作，跟随节点自动成为领导节点并响应来自 API 网关的查询？

下面的文档提供了一些指针，并讨论了如何实现 'Quorum' 以自动选择领导者。我不确定它是否适用于我的这种情况？

https://learn.hashicorp.com/tutorials/consul/recovery-outage-primary?in=consul/datacenter-operations#outage-event-in-the-primary-datacenter

编辑：

consul.hcl

First Server:

datacenter = "dc1"
data_dir = "D:/Hashicorp/Consul/data"
encrypt = "<key>"
ca_file = "D:/Hashicorp/Consul/certs/consul-agent-ca.pem"
cert_file = "D:/Hashicorp/Consul/certs/dc1-server-consul-0.pem"
key_file = "D:/Hashicorp/Consul/certs/dc1-server-consul-0-key.pem"
verify_incoming = true
verify_outgoing = true
verify_server_hostname = true
retry_join = ["<ip1>", "<ip2>"]

Second Server:

datacenter = "dc1"
data_dir = "D:/Hashicorp/Consul/data"
encrypt = "<key>"
ca_file = "D:/Hashicorp/Consul/certs/consul-agent-ca.pem"
cert_file = "D:/Hashicorp/Consul/certs/dc1-server-consul-1.pem"
key_file = "D:/Hashicorp/Consul/certs/dc1-server-consul-1-key.pem"
verify_incoming = true
verify_outgoing = true
verify_server_hostname = true
retry_join = ["<ip1>", "<ip2>"]

server.hcl:

第一台服务器：

server = true
bootstrap_expect = 2
client_addr = "<ip1>"
ui = true

第二台服务器：

server = true
bootstrap_expect = 2
client_addr = "<ip2>"
ui = true

Answer 1

集群的大小和形成仲裁的能力绝对适用于这种情况。集群中至少需要 3 个节点，以便在不牺牲集群可用性的情况下容忍一个节点发生故障。

我建议阅读页面底部的 Consul Raft Protocol Overview as well as reviewing the deployment table，以帮助理解使用各种集群大小提供的容错能力。

领事数据中心：前一个领导节点失败后不会自动选择领导节点

Consul Data Center: Leader node not automatically selected after failure of previous leader node

consul

microservices

consul-template

consul-health-check

hashicorp