Grafana 中的虚假高值导致错误警报
False high values in Grafana causing false alerts
我昨天在 Grafana 中配置了警报,并从两个服务器获得警报。始终是相同的两台服务器获得高 IO,高 CPU 或其他任何东西。
问题是,他们没有这么高的数据。事实上,他们几乎处于闲置状态。所有服务器都通过 Ansible 配置完全相同。所以 Telegraf 配置在所有服务器上都是相同的。
此外,如果我将 Grafana 中的统计信息过滤到相应的服务器,图表中显示的数据是正确的,如下面的屏幕截图所示。规则测试仍然导致误报。
我检查了 vmstat
,它也显示了正确的信息:
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
r b swpd free buff cache si so bi bo in cs us sy id wa st
1 0 47100 151152 20948 454556 2 2 16 38 2 1 2 1 96 0 1
0 0 47100 151136 20948 454592 0 0 0 0 125 135 0 1 96 0 2
0 0 47100 150408 20956 454584 0 0 0 84 222 282 1 3 93 0 4
0 0 47100 150424 20956 454592 0 0 0 0 151 225 0 0 97 0 2
0 0 47100 150424 20956 454592 0 0 0 0 115 140 0 0 96 0 4
0 0 47100 150424 20956 454592 0 0 0 0 109 125 0 0 97 0 2
0 0 47100 150424 20956 454592 0 0 0 0 121 131 0 0 98 0 2
0 0 47100 150412 20972 454576 0 0 0 92 139 208 0 1 96 0 3
0 0 47100 150456 20972 454592 0 0 0 0 65 117 0 0 99 0 1
0 0 47100 150876 20972 454592 0 0 0 16 692 705 2 4 88 0 5
如果出现问题,telegraf.log
。
2017-07-07T09:22:04Z I! Starting Telegraf (version 1.3.3)
2017-07-07T09:22:04Z I! Loaded outputs: influxdb
2017-07-07T09:22:04Z I! Loaded inputs: inputs.diskio inputs.processes inputs.swap inputs.system inputs.redis inputs.disk inputs.kernel inputs.mem inputs.net inputs.nginx inputs.postgresql inputs.cpu
2017-07-07T09:22:04Z I! Tags enabled: environment=production host=om-1-prod rails_env=production role=telegraf
2017-07-07T09:22:04Z I! Agent Config: Interval:10s, Quiet:false, Hostname:"om-1-prod", Flush Interval:10s
有什么问题吗?
我一直手动监控服务器,并在短时间内发现了这些高峰。
所以这里的问题是这些峰值在 Grafana 中的选定时间范围内不可见。它被聚合到一个较小的平均值,然后看起来只有 40 个 ips。如果我放大相应的时间范围,我会看到这些峰值。
长话短说:没有问题 Grafana,InfluxDB 的 Telegraf。键盘和椅子之间存在问题
我昨天在 Grafana 中配置了警报,并从两个服务器获得警报。始终是相同的两台服务器获得高 IO,高 CPU 或其他任何东西。
问题是,他们没有这么高的数据。事实上,他们几乎处于闲置状态。所有服务器都通过 Ansible 配置完全相同。所以 Telegraf 配置在所有服务器上都是相同的。
此外,如果我将 Grafana 中的统计信息过滤到相应的服务器,图表中显示的数据是正确的,如下面的屏幕截图所示。规则测试仍然导致误报。
我检查了 vmstat
,它也显示了正确的信息:
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
r b swpd free buff cache si so bi bo in cs us sy id wa st
1 0 47100 151152 20948 454556 2 2 16 38 2 1 2 1 96 0 1
0 0 47100 151136 20948 454592 0 0 0 0 125 135 0 1 96 0 2
0 0 47100 150408 20956 454584 0 0 0 84 222 282 1 3 93 0 4
0 0 47100 150424 20956 454592 0 0 0 0 151 225 0 0 97 0 2
0 0 47100 150424 20956 454592 0 0 0 0 115 140 0 0 96 0 4
0 0 47100 150424 20956 454592 0 0 0 0 109 125 0 0 97 0 2
0 0 47100 150424 20956 454592 0 0 0 0 121 131 0 0 98 0 2
0 0 47100 150412 20972 454576 0 0 0 92 139 208 0 1 96 0 3
0 0 47100 150456 20972 454592 0 0 0 0 65 117 0 0 99 0 1
0 0 47100 150876 20972 454592 0 0 0 16 692 705 2 4 88 0 5
如果出现问题,telegraf.log
。
2017-07-07T09:22:04Z I! Starting Telegraf (version 1.3.3)
2017-07-07T09:22:04Z I! Loaded outputs: influxdb
2017-07-07T09:22:04Z I! Loaded inputs: inputs.diskio inputs.processes inputs.swap inputs.system inputs.redis inputs.disk inputs.kernel inputs.mem inputs.net inputs.nginx inputs.postgresql inputs.cpu
2017-07-07T09:22:04Z I! Tags enabled: environment=production host=om-1-prod rails_env=production role=telegraf
2017-07-07T09:22:04Z I! Agent Config: Interval:10s, Quiet:false, Hostname:"om-1-prod", Flush Interval:10s
有什么问题吗?
我一直手动监控服务器,并在短时间内发现了这些高峰。
所以这里的问题是这些峰值在 Grafana 中的选定时间范围内不可见。它被聚合到一个较小的平均值,然后看起来只有 40 个 ips。如果我放大相应的时间范围,我会看到这些峰值。
长话短说:没有问题 Grafana,InfluxDB 的 Telegraf。键盘和椅子之间存在问题