Amazon elasticsearch 对 FreeStorageSpace 指标的解释

Amazon elasticsearch interpretation of FreeStorageSpace metrics

我有 6 个 m3.large.elasticsearch 类型实例和存储类型实例。

我真的不明白这里的平均值、最小值、最大值..是什么意思?

虽然此处显示 FreeStorageSpace 为 14.95GB,但我现在没有在我的集群中获取任何日志:

但是我 "Minimum" 的 FreeStorageSpace 图已达到零!

这里发生了什么?

我也被这个搞糊涂了。最小值表示单个数据节点上的大小 - 一个具有最少空闲 space 的节点。 Sum 表示整个集群的大小(所有数据节点上空闲 space 的总和)。通过关注 link

获得此信息

http://docs.aws.amazon.com/elasticsearch-service/latest/developerguide/es-managedomains.html

我们运行陷入了同样的困惑。 Avg、Min、Max 将计算分布在所有节点上,Sum 组合了整个集群的 Free/Used space。

我们假设 Average FreeStorageSpace 表示整个集群的平均可用存储 space 并设置警报,同时牢记以下计算:

  1. 每天索引 = 1 TB
  2. 保留索引的最大天数 = 10

因此,我们在任何时间点的平均利用率都是 10 TB。假设,我们将增加 2 倍 - 即 20 TB 我们根据 https://docs.aws.amazon.com/elasticsearch-service/latest/developerguide/sizing-domains.html#aes-bp-storage 的实际存储需求是 复制因子为 2 的是:

(20 * 2 * 1.1 / 0.95 / 0.8) = 57.89 =~ 60 TB

因此我们提供了 18 X 3.8 TB 实例 =~ 68 TB 以容纳 2x = 60 TB

所以我们设置了一个警报,如果我们低于 8 TB 的可用存储空间 - 这意味着我们已经达到 2 倍的限制并且应该扩大规模。因此我们设置闹钟

5 分钟内 4 个数据点的 FreeStorageSpace <= 8388608.00 + Statistic=Average + Duration=1minute

FreeStorageSpace 以 MB 为单位,因此 - 8 TB = 8388608 MB。

但我们立即收到警报,因为我们每个节点的平均利用率低于 8 TB。

意识到要获得准确的存储空间后,您需要对 FreeStorageSpace 求和 1 分钟 - 我们将警报设置为

5 分钟内 4 个数据点的 FreeStorageSpace <= 8388608.00 + Statistic=Sum + Duration=1minute

以上计算得到验证,我们能够设置正确的警报。

ClusterUsedSpace计算也是如此。

您还应该使用 Cloudwatch Math 跟踪实际免费 space 百分比: