Zabbix监控流量异常(偶尔超出交换机限制)
前提:
近期業(yè)務做了集群的流量匯總,整體沒有問題。后面慢慢優(yōu)化一些參數(shù)項。但是這兩天發(fā)現(xiàn),集群流量數(shù)據(jù)增大,業(yè)務正常。
問題:
zabbix和prometheus 監(jiān)控網(wǎng)卡,流量異常增大,超出限制,每次2分鐘,偶爾性觸發(fā)
看圖,這個和7月對比,簡介翻了幾倍,但是業(yè)務沒有增長,這就很奇怪了
?
?
上面介紹相關截圖。
解決:
首先以為業(yè)務導致網(wǎng)卡過大加載,導致流量增大,我們使用? ifstat-1.1.tar.gz? 工具記錄每一秒的網(wǎng)卡速度,記錄一晚上再看。
分析上圖,雖然流量有超過100M的,但是網(wǎng)卡是能夠支撐的。沒有zabbix和prometheus顯示的那么恐怖。
思考
我和大佬分交流一下。說是zabbix的單位轉(zhuǎn)換,要加8倍,我也是添加了的
?
?
嗯。。。。。。。。。。。。。。。。。。。。。正常
大佬建議讓我使用snmp監(jiān)控對比一下,思路不錯,可以搞。直接部署上去對比了
分析
snmp對比一下
?zabbix的(還是這么高)
snmp的(這個是正常的)
?很明顯,這是snmp是準確的。但是為什么會這樣
結(jié)果:
首先,業(yè)務正常,服務器正常,現(xiàn)在就是zabbix不正常,懷疑是zabbix的問題
回想一下,在數(shù)據(jù)量增加前做了什么操作。
之前,我當時增加一批監(jiān)控指標,因為監(jiān)控點比較重要,所有設置抓取時間為10s。誰知道這個10s就是罪魁禍首。集群內(nèi)部機器較多,可能會產(chǎn)生數(shù)據(jù)積壓。
后續(xù)
取消關聯(lián)模板,監(jiān)控整體流量,確定無虛假流量
調(diào)整監(jiān)控項的抓取指標為:1m? 再次關聯(lián)模板正常
總結(jié)
以上是生活随笔為你收集整理的Zabbix监控流量异常(偶尔超出交换机限制)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 微信怎样查绑定的服务器地址,你的微信绑定
- 下一篇: win7查看隐藏文件_win7 c盘清理