Anthos 服务网格指标

Anthos Service Mesh Metrics

我最近部署了 Anthos Service Mesh,开始使用交钥匙方法来部署 GKE 和 Istio。到目前为止一切顺利,但我看到的一个问题是 pods 的基本指标(CPU、内存和磁盘)未显示。

当我查看 prometheus-to-sd pods 的日志时,我看到以下错误:

Error while sending request to Stackdriver googleapi: Error 403: Permission monitoring.timeSeries.create denied (or the resource may not exist)., forbidden

与 fluentd-gke 类似的错误 pods。

Unable to export to Monitoring service because: GaxError RPC failed, caused by 7:Permission monitoring.timeSeries.create denied (or the resource may not exist).

我尝试使用 GCP SA 到 KSA 映射调整工作负载身份权限,但没有成功。还有其他人 运行 参与其中吗?

这些是我一直遵循的说明。

https://cloud.google.com/service-mesh/docs/gke-anthos-cli-new-cluster

事实证明,在主机网络设置为 true 的情况下,Workload Identity 不适用于 pods。人们会认为 Anthos 基本 pods 和计算节点的监控将开箱即用。

解决此问题的两个选项:

1.) Update the default compute engine account with the following roles:
-roles/logging.logWriter
-roles/monitoring.metricWriter
-roles/monitoring.viewer

2.) Deploy the node pools with a custom service account with the aforementioned roles.

为了让事情顺利进行,我使用了选项 #1。