AWS 云观察指标

AWS cloudwatch metrics

我想知道更多细节和对 aws 云观察指标的影响 - aws 文档确实有很多关于指标的细节

以下指标有何区别?
如果以下警报触发,对应用程序或 aws 实例有什么影响?

  1. 最近 5 分钟内大于 0(计数)的 Http 服务器错误已激活
  2. 过去 5 分钟内请求大于 100(计数)
  3. 最近 5 分钟内的 HTTP 404 大于 0(计数)已激活
  4. 过去 5 分钟内请求大于 500(计数)已激活

Cloudwatch 检查日志中的这些错误?

这些指标与您的负载均衡器相关。这是我的解释:

  1. 负载平衡器后面的 Web 服务器抛出代码为 5XX 的 HTTP 错误 - 表示您的服务器无法执行请求。这可能是由于多种原因造成的,例如 Internal Server ErrorNot Implemented(例如服务器期望 POST 但客户端发送 GET)、Gateway Timeout(例如服务器执行缓慢的数据库查询和 结果没有及时返回)等
  2. 已完成的请求数或建立的连接数超过 100 - 准确说明了内容。
  3. 客户端收到的 "Not Found" 消息数 - 表明客户端正在请求您的应用程序中不存在的页面(例如,https://whosebug.com/test
  4. 完成的请求数或建立的连接数超过 500 - 与数字 2 相同,但表示请求更多。

如果同时触发所有这些警报,则可能是您的服务器负载过高,无法以最佳方式运行。不过,除此之外,就很难说了。您需要检查最大错误数。最重要的是 5XX(数字 1)。 负载均衡器将这些指标发布到 CloudWatch,这些指标与您的应用程序日志没有任何关系(如果我理解正确的话)。