Cadence - 确定重要的运营指标

Cadence - Identifying important Operation metrics

我正在收集一些指标,并希望根据 Operation 进行一些聚合。

  1. 您认为我们应该关注的所有服务中排名前 5 位(或更多或更少)的操作是什么?或者
  2. 单项服务是否有前 5 名(或更多或更少)?如果是,你能列出来吗?

提前致谢。

首先,这个问题比较模糊。我只是根据自己的喜好做了一些作为最小监视器集。

服务器指标

  • 您应该监控每项服务的所有 API 的可用性和延迟,以及持久性 API。
  • 您应该从历史服务监控队列延迟——这是理解后台任务性能的关键指标,API可用性和延迟
  • 您应该为每个服务的 API 个计数器制作仪表板,以便您可以看到负载随时间的变化

客户指标

  • 您应该监控 Workflow failure/timeout
  • 您应该监控 Activity 任务 failure/timeout
  • 你应该监控决策任务 failure/timeout