仅在 GCP 中无法在 www.googleapis.com 找到服务器

Unable to find the server at www.googleapis.com only within GCP

我知道有几个问题与此问题类似。但就我而言,这个问题只发生在 GCP 上。我们在 AKS (Azure) 中 运行 我们的服务已经将近一年了,没有发生过一次。在我们迁移到 GCP GKE 之后,我们 Python 应用程序的一些请求陷入了错误:Unable to find the server at www.googleapis.com。在大多数情况下,请求有效,所以它看起来是随机的。我已经尝试增加 TCP 超时以及我的 Cloud Nat 中每个 VM 实例的最小最小端口数。我们是 运行 GKE 服务,我们为网络设置了 Cloud Nat 网关。

GCP 上是否有任何独占设置可能导致该问题?

我知道问题出在哪里了。 kube-dns 服务被调度到承受高内存压力的节点,导致 kube-dns 被驱逐并重新启动。在此期间,一些请求不会得到解决。为了解决这个问题,我创建了一个专用于 kube-system 服务的节点池,然后编辑了 kube-system 部署并设置了一个 nodeSelector,以便它们始终被安排到安全节点。之后问题就停止了。