Kubernetes 上带有 Pgbouncer 的 Npgsql - 池化和保活

Npgsql with Pgbouncer on Kubernetes - pooling & keepalives

我正在寻找更详细的指导/其他人使用 Pgbouncer 在生产中使用 Npgsql 的经验。

基本上我们使用 GKE 和 Google Cloud SQL 进行了以下设置：

现在 - 我已经使用本地连接池配置了 npgsql，就好像 pgbouncer 没有到位一样。我在我的 GKE 集群中添加了 pgbouncer 作为部署，因为 Google SQL 具有非常低的最大连接限制 - 为了能够在 Kubernetes 内水平扩展我的应用程序，我需要防止它被压垮。

我的问题是其中一个 pgbouncer pods 死机时的可靠性问题（由于节点故障或我正在扩展 up/down）。

发生这种情况时 (1) 应用程序中来自客户端连接池的所有现有打开连接 pods 不会立即关闭 (2) - 并且基本上会导致我的应用程序出现异常，因为它尝试执行命令。不理想！

据我所知（并查看 https://www.npgsql.org/doc/compatibility.html 上的建议）我有三个选择。

忍受它，并在我的应用程序中处理 SQL 命令的重试。 可能，但似乎需要付出很多努力并创造很多如果我弄错了可能的错误。
打开 keep alives 并让 npgsql 自身 'fail out' 相对较快地处理失败时的不良连接。 我什至不确定这是否会起作用还是会引起更多问题。
完全关闭客户端连接池。这似乎是官方建议，但出于性能原因我不愿意这样做，看起来很Npgsql 必须为每个会话打开一个到 pgbouncer 的连接是浪费的——并且与我对其他 RDBMS 的所有经验背道而驰，比如 SQL Server.

我选择这些选项之一是否正确？还是我遗漏了什么？

你的方向大体上是正确的，你的分析似乎是准确的。一些评论：

选项 2（生成 keepalive）将有助于删除 Npgsql 池中已断开的空闲连接。正如您编写的那样，您的应用程序仍然会出现一些故障（因为可能无法及时删除一些不良的空闲连接）。没有特别的理由认为这会导致更多问题 - 打开它应该是非常安全的。

选项 3 对于 perf 确实有问题，因为每次需要数据库连接时都必须建立到 pgbouncer 的 TCP 连接。它也不会提供 100% 的防故障机制，因为 pgbouncer 在连接正在使用时可能仍然会退出。

归根结底，您是在询问面对任意 network/server 故障时的弹性，这不是一件容易实现的事情。处理这个问题的唯一 100% 可靠的方法是在您的应用程序中，通过一个专用层，该层将在发生暂时性异常时重试操作。您可能需要查看 Polly, and note that Npgsql helps our a bit by exposing an IsTransient 异常，它可以用作重试的触发器（Entity Framework Core 也包含类似的 "retry strategy"）。如果您确实走这条路，请注意事务特别难以正确处理。

Kubernetes 上带有 Pgbouncer 的 Npgsql - 池化和保活

Npgsql with Pgbouncer on Kubernetes - pooling & keepalives

postgresql

npgsql

pgbouncer

kubernetes

asp.net-core