Amazon elasticsearch 对 FreeStorageSpace 指标的解释

Amazon elasticsearch interpretation of FreeStorageSpace metrics

我有 6 个 m3.large.elasticsearch 类型实例和存储类型实例。

我真的不明白这里的平均值、最小值、最大值..是什么意思？

虽然此处显示 FreeStorageSpace 为 14.95GB，但我现在没有在我的集群中获取任何日志：

但是我 "Minimum" 的 FreeStorageSpace 图已达到零！

这里发生了什么？

我也被这个搞糊涂了。最小值表示单个数据节点上的大小 - 一个具有最少空闲 space 的节点。 Sum 表示整个集群的大小（所有数据节点上空闲 space 的总和）。通过关注 link

获得此信息

我们运行陷入了同样的困惑。 Avg、Min、Max 将计算分布在所有节点上，Sum 组合了整个集群的 Free/Used space。

我们假设 Average FreeStorageSpace 表示整个集群的平均可用存储 space 并设置警报，同时牢记以下计算：

因此，我们在任何时间点的平均利用率都是 10 TB。假设，我们将增加 2 倍 - 即 20 TB 我们根据 https://docs.aws.amazon.com/elasticsearch-service/latest/developerguide/sizing-domains.html#aes-bp-storage 的实际存储需求是复制因子为 2 的是：

(20 * 2 * 1.1 / 0.95 / 0.8) = 57.89 =~ 60 TB

因此我们提供了 18 X 3.8 TB 实例 =~ 68 TB 以容纳 2x = 60 TB

所以我们设置了一个警报，如果我们低于 8 TB 的可用存储空间 - 这意味着我们已经达到 2 倍的限制并且应该扩大规模。因此我们设置闹钟

5 分钟内 4 个数据点的 FreeStorageSpace <= 8388608.00 + Statistic=Average + Duration=1minute

FreeStorageSpace 以 MB 为单位，因此 - 8 TB = 8388608 MB。

但我们立即收到警报，因为我们每个节点的平均利用率低于 8 TB。

意识到要获得准确的存储空间后，您需要对 FreeStorageSpace 求和 1 分钟 - 我们将警报设置为

5 分钟内 4 个数据点的 FreeStorageSpace <= 8388608.00 + Statistic=Sum + Duration=1minute

以上计算得到验证，我们能够设置正确的警报。

ClusterUsedSpace计算也是如此。

您还应该使用 Cloudwatch Math 跟踪实际免费 space 百分比：