Zabbix 性能调整(使用代理)
Zabbix Performance tunning (with Proxies)
我们用一个 Zabbix (3.4.7) Server 和 8 个 Proxies 设置了一个分布式监控集群:
扎比克斯:
OS: Debian Stretch
CPU: 16*2.27GHz
RAM: 48GB
Disk: Raid1 10K (Non-SSD)
LogFile=/var/log/zabbix/zabbix_server.log
PidFile=/var/run/zabbix/zabbix_server.pid
DBName=zabbix
DBUser=zabbix
DBHost=127.0.0.1
DBPort=3307
LogFileSize=0
DBPassword=****
Timeout=4
AlertScriptsPath=/etc/zabbix/alert.d/
FpingLocation=/usr/bin/fping
LogSlowQueries=3000
Include=/etc/zabbix/zabbix_server.conf.d/*.conf
StartAlerters=10
StartPollers=80
StartPollersUnreachable=80
StartTrappers=20
StartPingers=30
StartEscalators=5
CacheSize=8G
StartDBSyncers=16
HistoryCacheSize=2048M
TrendCacheSize=256M
ValueCacheSize=10G
HistoryIndexCacheSize=2G
ExternalScripts=/etc/zabbix/alert.d/
SSHKeyLocation=/nonexistent/.ssh
代理服务器:
OS: Debian Stretch
CPU: 15*2.5GHz
RAM: 6GB
Disk: Raid1 10K (Non-SSD)
Server=XXXX
Hostname=zbx-lte
LogFile=/var/log/zabbix/zabbix_proxy.log
LogFileSize=0
PidFile=/var/run/zabbix/zabbix_proxy.pid
SocketDir=/var/run/zabbix
DBName=zabbix
DBUser=zabbix
DBPassword=159753
ConfigFrequency=600
DataSenderFrequency=1
StartPollers=240
StartPollersUnreachable=80
StartTrappers=20
StartPingers=80
SNMPTrapperFile=/var/log/snmptrap/snmptrap.log
CacheSize=1G
StartDBSyncers=16
HistoryCacheSize=2048M
HistoryIndexCacheSize=2G
Timeout=6
ExternalScripts=/usr/lib/zabbix/externalscripts
FpingLocation=/usr/bin/fping
LogSlowQueries=3000
我们正在通过 Zabbix 监控近 1650 个节点(snmp、icmp、agent、ssh、外部脚本和外部应用程序)
自(大约)2 个月前,我们在特定 zabbix 代理(图片中的 zbx-lte)的 non-icmp 图表(图片:5.png)中看到如此多的滞后
(来源:sassan.co)
此图与设备相关(使用 snmp v2)。 (此代理上还有许多其他类似的图表)
我捕获了相关zabbix proxy的网络流量,对于其中一项,zabbix proxy只发送了16个查询而不是60个查询(间隔1m,持续1小时)。
(来源:sassan.co)
如果我将此设备更改为由 Zabbix Server 或任何其他代理监控,一切正常
听起来这个代理有问题
(来源:sassan.co)
(来源:sassan.co)
请帮我找出根本原因。
(来源:sassan.co)
(来源:sassan.co)
(来源:sassan.co)
(来源:sassan.co)
(来源:sassan.co)
(来源:sassan.co)
我明白了!
没想到,答案很搞笑!
zabbix_proxy 中的服务器地址是 FQDN 地址,当我将其添加到 /etc/hosts 时我们的性能问题得到解决。
我们用一个 Zabbix (3.4.7) Server 和 8 个 Proxies 设置了一个分布式监控集群:
扎比克斯:
OS: Debian Stretch
CPU: 16*2.27GHz
RAM: 48GB
Disk: Raid1 10K (Non-SSD)
LogFile=/var/log/zabbix/zabbix_server.log
PidFile=/var/run/zabbix/zabbix_server.pid
DBName=zabbix
DBUser=zabbix
DBHost=127.0.0.1
DBPort=3307
LogFileSize=0
DBPassword=****
Timeout=4
AlertScriptsPath=/etc/zabbix/alert.d/
FpingLocation=/usr/bin/fping
LogSlowQueries=3000
Include=/etc/zabbix/zabbix_server.conf.d/*.conf
StartAlerters=10
StartPollers=80
StartPollersUnreachable=80
StartTrappers=20
StartPingers=30
StartEscalators=5
CacheSize=8G
StartDBSyncers=16
HistoryCacheSize=2048M
TrendCacheSize=256M
ValueCacheSize=10G
HistoryIndexCacheSize=2G
ExternalScripts=/etc/zabbix/alert.d/
SSHKeyLocation=/nonexistent/.ssh
代理服务器:
OS: Debian Stretch
CPU: 15*2.5GHz
RAM: 6GB
Disk: Raid1 10K (Non-SSD)
Server=XXXX
Hostname=zbx-lte
LogFile=/var/log/zabbix/zabbix_proxy.log
LogFileSize=0
PidFile=/var/run/zabbix/zabbix_proxy.pid
SocketDir=/var/run/zabbix
DBName=zabbix
DBUser=zabbix
DBPassword=159753
ConfigFrequency=600
DataSenderFrequency=1
StartPollers=240
StartPollersUnreachable=80
StartTrappers=20
StartPingers=80
SNMPTrapperFile=/var/log/snmptrap/snmptrap.log
CacheSize=1G
StartDBSyncers=16
HistoryCacheSize=2048M
HistoryIndexCacheSize=2G
Timeout=6
ExternalScripts=/usr/lib/zabbix/externalscripts
FpingLocation=/usr/bin/fping
LogSlowQueries=3000
我们正在通过 Zabbix 监控近 1650 个节点(snmp、icmp、agent、ssh、外部脚本和外部应用程序)
自(大约)2 个月前,我们在特定 zabbix 代理(图片中的 zbx-lte)的 non-icmp 图表(图片:5.png)中看到如此多的滞后
(来源:sassan.co)
此图与设备相关(使用 snmp v2)。 (此代理上还有许多其他类似的图表) 我捕获了相关zabbix proxy的网络流量,对于其中一项,zabbix proxy只发送了16个查询而不是60个查询(间隔1m,持续1小时)。
(来源:sassan.co)
如果我将此设备更改为由 Zabbix Server 或任何其他代理监控,一切正常
听起来这个代理有问题
(来源:sassan.co)
(来源:sassan.co)
请帮我找出根本原因。
(来源:sassan.co)
(来源:sassan.co)
(来源:sassan.co)
(来源:sassan.co)
(来源:sassan.co)
(来源:sassan.co)
我明白了!
没想到,答案很搞笑!
zabbix_proxy 中的服务器地址是 FQDN 地址,当我将其添加到 /etc/hosts 时我们的性能问题得到解决。