Kubernetes 上带有 Pgbouncer 的 Npgsql - 池化和保活
Npgsql with Pgbouncer on Kubernetes - pooling & keepalives
我正在寻找更详细的指导/其他人使用 Pgbouncer 在生产中使用 Npgsql 的经验。
基本上我们使用 GKE 和 Google Cloud SQL 进行了以下设置:
现在 - 我已经使用本地连接池配置了 npgsql,就好像 pgbouncer 没有到位一样。我在我的 GKE 集群中添加了 pgbouncer 作为部署,因为 Google SQL 具有非常低的最大连接限制 - 为了能够在 Kubernetes 内水平扩展我的应用程序,我需要防止它被压垮。
我的问题是其中一个 pgbouncer pods 死机时的可靠性问题(由于节点故障或我正在扩展 up/down)。
发生这种情况时 (1) 应用程序中来自客户端连接池的所有现有打开连接 pods 不会立即关闭 (2) - 并且基本上会导致我的应用程序出现异常,因为它尝试执行命令。不理想!
据我所知(并查看 https://www.npgsql.org/doc/compatibility.html
上的建议)我有三个选择。
忍受它,并在我的应用程序中处理 SQL 命令的重试。 可能,但似乎需要付出很多努力并创造很多如果我弄错了可能的错误。
打开 keep alives 并让 npgsql 自身 'fail out' 相对较快地处理失败时的不良连接。 我什至不确定这是否会起作用还是会引起更多问题。
完全关闭客户端连接池。这似乎是官方建议,但出于性能原因我不愿意这样做,看起来很Npgsql 必须为每个会话打开一个到 pgbouncer 的连接是浪费的——并且与我对其他 RDBMS 的所有经验背道而驰,比如 SQL Server.
我选择这些选项之一是否正确?还是我遗漏了什么?
你的方向大体上是正确的,你的分析似乎是准确的。一些评论:
选项 2(生成 keepalive)将有助于删除 Npgsql 池中已断开的空闲连接。正如您编写的那样,您的应用程序仍然会出现一些故障(因为可能无法及时删除一些不良的空闲连接)。没有特别的理由认为这会导致更多问题 - 打开它应该是非常安全的。
选项 3 对于 perf 确实有问题,因为每次需要数据库连接时都必须建立到 pgbouncer 的 TCP 连接。它也不会提供 100% 的防故障机制,因为 pgbouncer 在连接正在使用时可能仍然会退出。
归根结底,您是在询问面对任意 network/server 故障时的弹性,这不是一件容易实现的事情。处理这个问题的唯一 100% 可靠的方法是在您的应用程序中,通过一个专用层,该层将在发生暂时性异常时重试操作。您可能需要查看 Polly, and note that Npgsql helps our a bit by exposing an IsTransient
异常,它可以用作重试的触发器(Entity Framework Core 也包含类似的 "retry strategy")。如果您确实走这条路,请注意事务特别难以正确处理。
我正在寻找更详细的指导/其他人使用 Pgbouncer 在生产中使用 Npgsql 的经验。
基本上我们使用 GKE 和 Google Cloud SQL 进行了以下设置:
现在 - 我已经使用本地连接池配置了 npgsql,就好像 pgbouncer 没有到位一样。我在我的 GKE 集群中添加了 pgbouncer 作为部署,因为 Google SQL 具有非常低的最大连接限制 - 为了能够在 Kubernetes 内水平扩展我的应用程序,我需要防止它被压垮。
我的问题是其中一个 pgbouncer pods 死机时的可靠性问题(由于节点故障或我正在扩展 up/down)。
发生这种情况时 (1) 应用程序中来自客户端连接池的所有现有打开连接 pods 不会立即关闭 (2) - 并且基本上会导致我的应用程序出现异常,因为它尝试执行命令。不理想!
据我所知(并查看 https://www.npgsql.org/doc/compatibility.html
上的建议)我有三个选择。
忍受它,并在我的应用程序中处理 SQL 命令的重试。 可能,但似乎需要付出很多努力并创造很多如果我弄错了可能的错误。
打开 keep alives 并让 npgsql 自身 'fail out' 相对较快地处理失败时的不良连接。 我什至不确定这是否会起作用还是会引起更多问题。
完全关闭客户端连接池。这似乎是官方建议,但出于性能原因我不愿意这样做,看起来很Npgsql 必须为每个会话打开一个到 pgbouncer 的连接是浪费的——并且与我对其他 RDBMS 的所有经验背道而驰,比如 SQL Server.
我选择这些选项之一是否正确?还是我遗漏了什么?
你的方向大体上是正确的,你的分析似乎是准确的。一些评论:
选项 2(生成 keepalive)将有助于删除 Npgsql 池中已断开的空闲连接。正如您编写的那样,您的应用程序仍然会出现一些故障(因为可能无法及时删除一些不良的空闲连接)。没有特别的理由认为这会导致更多问题 - 打开它应该是非常安全的。
选项 3 对于 perf 确实有问题,因为每次需要数据库连接时都必须建立到 pgbouncer 的 TCP 连接。它也不会提供 100% 的防故障机制,因为 pgbouncer 在连接正在使用时可能仍然会退出。
归根结底,您是在询问面对任意 network/server 故障时的弹性,这不是一件容易实现的事情。处理这个问题的唯一 100% 可靠的方法是在您的应用程序中,通过一个专用层,该层将在发生暂时性异常时重试操作。您可能需要查看 Polly, and note that Npgsql helps our a bit by exposing an IsTransient
异常,它可以用作重试的触发器(Entity Framework Core 也包含类似的 "retry strategy")。如果您确实走这条路,请注意事务特别难以正确处理。