斷圖 first network error, wait for 15 seconds

來源:互聯網
上載者:User

標籤:zabbix

前幾天,剛和群友討論過這個問題,他是snmp交換器的時候,圖時斷時續的。

我這裡也出現這樣的案例,不過是監控tomcat的時候,jstat佔用cpu 90多,

引起正常的監控項目斷圖。

其實,它讓我們wait for 15 seconds,那麼意思不斷疊加15s後,是不是5分鐘後不能出圖,

還是負載高不能出圖?


案例

zabbix_server.log

12961:20170512:113910.624 Zabbix agent item "java.discovery_status[service_tomcat,all]" on host "172.x.x.x" failed: first network error, wait for 15 seconds


排查

top

top - 14:34:25 up 344 days, 21:11,  1 user,  load average: 1.23, 1.09, 1.10

Tasks: 176 total,   1 running, 174 sleeping,   1 stopped,   0 zombie

Cpu(s): 25.0%us,  5.0%sy,  0.0%ni, 69.7%id,  0.1%wa,  0.0%hi,  0.2%si,  0.0%st

Mem:   3925304k total,  3672532k used,   252772k free,   174944k buffers

Swap:  4128764k total,    79512k used,  4049252k free,  2122448k cached


PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND                                                    

2484 tomcat    20   0 3333m  30m  12m S 99.8  0.8   9065:51 jstat

 

說明jstat異常,這個jstat是zabbix指令碼用來擷取tomcat資料的。

[[email protected] local]# ps -ef|grep jstatroot      2483     1  0 May06 ?        00:00:00 sudo -u tomcat /usr/java/jdk/bin/jstat -gcutil 12470tomcat    2484  2483 99 May06 ?        6-07:03:49 /usr/java/jdk/bin/jstat -gcutil 12470root     17095 32501  0 14:32 pts/0    00:00:00 grep jstat[[email protected] local]# ps -ef|grep jstatroot      2483     1  0 May06 ?        00:00:00 sudo -u tomcat /usr/java/jdk/bin/jstat -gcutil 12470tomcat    2484  2483 99 May06 ?        6-07:04:20 /usr/java/jdk/bin/jstat -gcutil 12470root     17097 32501  0 14:32 pts/0    00:00:00 grep jstat解決kill -9 2484就正常了,重啟zabbix_agentd,觀察負載為0.5左右。剛開始懷疑是觸發器的問題,還把觸發器給禁用了。至於這個問題的產生原因,有可能有幾點強制殺死tomcat進程引起的python指令碼jstat_status.py調用jstat後,是不是成僵死進程了?還是這個程式死結的原因?難道python有什麼特別注意的地方?還需要做的1.需要用python或者elk分析zabbix server端日誌發現好多not suitable for value type [Numeric (unsigned)] and data type [Decimal]2.某個進程佔用cpu 80以上就是有問題,這個也需要添加監控中

其他斷圖原因有以下:

1.資料庫最佳化比如Threads_created   | 49258532.zabbix server最佳化

650) this.width=650;" src="https://s2.51cto.com/wyfs02/M01/95/75/wKioL1kVW9nBxPXGAAAVErieoi0037.png-wh_500x0-wm_3-wmp_4-s_200992409.png" style="float:none;" title="QQ圖片20170512145250.png" alt="wKioL1kVW9nBxPXGAAAVErieoi0037.png-wh_50" />

650) this.width=650;" src="https://s2.51cto.com/wyfs02/M02/95/75/wKiom1kVW9mh7FMMAAARJCSRwQ4311.png-wh_500x0-wm_3-wmp_4-s_2311014138.png" style="float:none;" title="QQ圖片20170512145244.png" alt="wKiom1kVW9mh7FMMAAARJCSRwQ4311.png-wh_50" />

3.參考菜光光的部落格,從sql方面排查http://caiguangguang.blog.51cto.com/1652935/1377089/4.網卡問題http://www.fyluo.com/?post=1645.ZABBIX AGENT執行KEY,擷取資料時間超過30s參考http://blog.chinaunix.net/uid-8108137-id-4591738.html解決方案二修改AGENT執行key的最大時間,源碼當中限制了最大時間30S。得修改源碼。並且經過測試只修改AGETN的最大執行時間還不可以,SERVER或PROXY端的最大執行時間也是30S.只修改AGENT端30S,ITEM可以採集ACTIVE的方式就可以了。


系統的穩定性,才是伺服器穩定的前提。


本文出自 “python 營運” 部落格,謝絕轉載!

斷圖 first network error, wait for 15 seconds

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.