標籤:zabbix
前幾天,剛和群友討論過這個問題,他是snmp交換器的時候,圖時斷時續的。
我這裡也出現這樣的案例,不過是監控tomcat的時候,jstat佔用cpu 90多,
引起正常的監控項目斷圖。
其實,它讓我們wait for 15 seconds,那麼意思不斷疊加15s後,是不是5分鐘後不能出圖,
還是負載高不能出圖?
案例
zabbix_server.log
12961:20170512:113910.624 Zabbix agent item "java.discovery_status[service_tomcat,all]" on host "172.x.x.x" failed: first network error, wait for 15 seconds
排查
top
top - 14:34:25 up 344 days, 21:11, 1 user, load average: 1.23, 1.09, 1.10
Tasks: 176 total, 1 running, 174 sleeping, 1 stopped, 0 zombie
Cpu(s): 25.0%us, 5.0%sy, 0.0%ni, 69.7%id, 0.1%wa, 0.0%hi, 0.2%si, 0.0%st
Mem: 3925304k total, 3672532k used, 252772k free, 174944k buffers
Swap: 4128764k total, 79512k used, 4049252k free, 2122448k cached
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
2484 tomcat 20 0 3333m 30m 12m S 99.8 0.8 9065:51 jstat
說明jstat異常,這個jstat是zabbix指令碼用來擷取tomcat資料的。
[[email protected] local]# ps -ef|grep jstatroot 2483 1 0 May06 ? 00:00:00 sudo -u tomcat /usr/java/jdk/bin/jstat -gcutil 12470tomcat 2484 2483 99 May06 ? 6-07:03:49 /usr/java/jdk/bin/jstat -gcutil 12470root 17095 32501 0 14:32 pts/0 00:00:00 grep jstat[[email protected] local]# ps -ef|grep jstatroot 2483 1 0 May06 ? 00:00:00 sudo -u tomcat /usr/java/jdk/bin/jstat -gcutil 12470tomcat 2484 2483 99 May06 ? 6-07:04:20 /usr/java/jdk/bin/jstat -gcutil 12470root 17097 32501 0 14:32 pts/0 00:00:00 grep jstat解決kill -9 2484就正常了,重啟zabbix_agentd,觀察負載為0.5左右。剛開始懷疑是觸發器的問題,還把觸發器給禁用了。至於這個問題的產生原因,有可能有幾點強制殺死tomcat進程引起的python指令碼jstat_status.py調用jstat後,是不是成僵死進程了?還是這個程式死結的原因?難道python有什麼特別注意的地方?還需要做的1.需要用python或者elk分析zabbix server端日誌發現好多not suitable for value type [Numeric (unsigned)] and data type [Decimal]2.某個進程佔用cpu 80以上就是有問題,這個也需要添加監控中
其他斷圖原因有以下:
1.資料庫最佳化比如Threads_created | 49258532.zabbix server最佳化
650) this.width=650;" src="https://s2.51cto.com/wyfs02/M01/95/75/wKioL1kVW9nBxPXGAAAVErieoi0037.png-wh_500x0-wm_3-wmp_4-s_200992409.png" style="float:none;" title="QQ圖片20170512145250.png" alt="wKioL1kVW9nBxPXGAAAVErieoi0037.png-wh_50" />
650) this.width=650;" src="https://s2.51cto.com/wyfs02/M02/95/75/wKiom1kVW9mh7FMMAAARJCSRwQ4311.png-wh_500x0-wm_3-wmp_4-s_2311014138.png" style="float:none;" title="QQ圖片20170512145244.png" alt="wKiom1kVW9mh7FMMAAARJCSRwQ4311.png-wh_50" />
3.參考菜光光的部落格,從sql方面排查http://caiguangguang.blog.51cto.com/1652935/1377089/4.網卡問題http://www.fyluo.com/?post=1645.ZABBIX AGENT執行KEY,擷取資料時間超過30s參考http://blog.chinaunix.net/uid-8108137-id-4591738.html解決方案二修改AGENT執行key的最大時間,源碼當中限制了最大時間30S。得修改源碼。並且經過測試只修改AGETN的最大執行時間還不可以,SERVER或PROXY端的最大執行時間也是30S.只修改AGENT端30S,ITEM可以採集ACTIVE的方式就可以了。
系統的穩定性,才是伺服器穩定的前提。
本文出自 “python 營運” 部落格,謝絕轉載!
斷圖 first network error, wait for 15 seconds