標籤:網站故障排查
作為一家中型網站的營運工程師,真實遇到網站GG了,尋求理想排查步驟,自己心得,附加網友觀點
網站掛了,
1、ping我的網站主站IP,可能是禁ping,不通,可能是機房網路問題,那麼就去ping機房的網關!
2、機房網路如果沒問題的話,那我會去看訪問是什麼情況,伺服器異常或者是nginx報錯的話,
那我 會排查一下硬體,我的網站是用簡單的nginx負載+對外防火牆的,那我就看看access。log,
統計一下這階段可疑IP以及行為,如果有攻擊,先拉黑可疑黑名單
3、tracert,我會看看我訪問網站路由問題,可不可能跨域問題,聯通網路訪問掛了?還是電信?看看DNS是不是被劫持了
4、這時候我再看下伺服器,我的網站程式是tomcat啟動並執行,看看tomcat進程是否僵死,看看日誌情況,一般來說,
只要負載(lvs的排查lvs---有點不會),沒得問題,一般不會http請求堆積在一個server上,那可能負載權重問題
,或者說我的tomcat(或者其他web容器,記憶體設定問題)
5、對了,可以試試單點登入一台節點看看,遇到內部程式轉寄的。內部curl看看,
或者使用httprequest看看post和get訪問的放回那個狀態代碼 200是OK
大神解說:方案最佳:
【進階】 帝都——大師兄 2016/8/2 21:54:06
我會先看看監控,因為監控上基本上你這些檢測,我都做了。
通過監控資料,先縮小排查範圍。針對性去找故障點,排查。你這一套下來,估計業務中斷也有一段時間了。
【進階】 帝都——大師兄 2016/8/2 21:55:54
快速響應,先把影響降低到最小。這是你應該做的。
【進階】 帝都——大師兄 2016/8/2 21:56:09
問題可以先放後,先把業務恢複上來。
【進階】 帝都——大師兄 2016/8/2 21:56:23
業務是關鍵,問題可以慢慢查。
【進階】 帝都——大師兄 2016/8/2 21:56:41
因為有日誌,和監控資料所以可以慢慢分析具體哪裡導致的業務中斷。
【進階】 帝都——大師兄
整個工作在你接手時,就應該預先考慮到,網站掛掉後,如何可以立刻恢複上來,大公司更是使用者無感知的恢複。小公司因為各種限制,可能會稍微有點影響。
【進階】 帝都——大師兄 2016/8/2 21:59:55
等到網站掛掉,你在去各種查問題,你已經晚了。
【進階】 帝都——大師兄 2016/8/2 22:00:56
個人觀點,僅供參考。
網站故障-排查步驟