EKS 上的 DNS 超时

DNS timeout on EKS

我的 EKS 集群遇到了一个奇怪的问题。

在随机的时间间隔内,我发现 DNS 请求在我的集群中因各种 pods 超时。 有时我的 pods 由于超时无法访问 rds 实例:

dial TCP: lookup myapp.zzzz.eu-west-1.rds.amazonaws.com on 172.20.0.10:53: no such host"

有时我什至无法解决 GitHub url :/

前段时间我看到有一个竞争条件问题 https://github.com/awslabs/amazon-eks-ami/issues/357 但它在某些时候得到了修复。 我的 resolv.conf 文件在我的一个 pod 中看起来像这样:

nameserver 172.20.0.10

search default.svc.cluster.local svc.cluster.local cluster.local eu-west-1.compute.internal

options ndots:5

我使用默认配置的 CNI Calico,与 CoreDNS 相同。 我在我的 CoreDNS 日志中没有看到任何超时或错误。

eks version: 1.21

ami:amazon-eks-node-1.21-v20210813

你们能告诉我正确的重定向吗?暂时不知道去哪里看..

发现这是一个 calico 错误,为此创建了一个票证 https://github.com/projectcalico/calico/issues/4866,“解决方案”是降级到 v3.19.1