从连接池中逐出到集群中只读节点的连接

Question

我的应用程序连接到两个 MySQL 5.6（实际上，Amazon Aurora）实例的故障转移集群。主动节点始终是可写访问的，而被动节点在 read_only 模式下是运行（这不同于规范的 MySQL 失败-在集群上，默认情况下所有从节点都是可写访问的）。 Amazon RDS 提供一个符号 DNS 名称，它始终指向活动 MySQL 节点的 IP 地址。

在故障转移过程中，之前的主节点以read_only模式重新启动，而之前的被动节点变为可写访问并提升为主节点。此外，DNS 记录已更改，因此集群的 DNS 名称现在指向新的主节点。

即使我在 Java 端完全禁用 DNS 缓存（通过 sun.net.inetaddr.ttl 或 networkaddress.cache.ttl），OS 特定的 DNS 缓存仍然有效，所以在数据库故障转移我最终让我的 DBCP 池充满了到只读 MySQL 实例的连接。这些连接是 valid, i. e. they have been obtained after the fail-over completed but before the DNS cache expired. Additionally, none of such connections has readOnly flag set, so I can't tell whether I'm talking to a read-only instance until I execute some DML, which is when ER_OPTION_PREVENTS_STATEMENT comes in all its glory. Even if I explicitly put a connection to a read-write mode by calling setReadOnly(false) and set the readOnlyPropagatesToServer 标志，这只会导致驱动程序向服务器发送 SET SESSION TRANSACTION READ WRITE，这不会导致抛出任何异常。

我希望尽可能少地影响应用程序逻辑来解决这个问题。如果有一种方法可以将与只读实例的连接视为 invalid/closed 连接（即将其从池中逐出）。

我可以有一个 validation query 例如 SHOW GLOBAL VARIABLES LIKE 'read_only' 附加逻辑吗？是否有可能影响池的行为 w.r.t 连接基于验证查询的标量值 returns?

Answer 1

可以使用以下验证查询：

select case when @@read_only = 0 then 1 else (select table_name from information_schema.tables) end as `1`

如果数据库运行处于只读模式，查询将失败

ERROR 1242 (21000): Subquery returns more than 1 row

由于 Amazon Aurora 在集群的 reader 端点上设置了 innodb_read_only 而不是 read_only，验证查询可以重写为

select case when @@read_only + @@innodb_read_only = 0 then 1 else (select table_name from information_schema.tables) end as `1`

受到 this 回答的启发。

从连接池中逐出到集群中只读节点的连接

Evicting connections to a read-only node in a cluster from the connection pool

java

mysql

connection-pooling

apache-commons-dbcp

amazon-aurora