網站故障-排查步驟

來源:互聯網
上載者:User

標籤:網站故障排查

作為一家中型網站的營運工程師,真實遇到網站GG了,尋求理想排查步驟,自己心得,附加網友觀點

網站掛了,

1、ping我的網站主站IP,可能是禁ping,不通,可能是機房網路問題,那麼就去ping機房的網關!

2、機房網路如果沒問題的話,那我會去看訪問是什麼情況,伺服器異常或者是nginx報錯的話,

   那我     會排查一下硬體,我的網站是用簡單的nginx負載+對外防火牆的,那我就看看access。log,

   統計一下這階段可疑IP以及行為,如果有攻擊,先拉黑可疑黑名單

3、tracert,我會看看我訪問網站路由問題,可不可能跨域問題,聯通網路訪問掛了?還是電信?看看DNS是不是被劫持了

4、這時候我再看下伺服器,我的網站程式是tomcat啟動並執行,看看tomcat進程是否僵死,看看日誌情況,一般來說,

   只要負載(lvs的排查lvs---有點不會),沒得問題,一般不會http請求堆積在一個server上,那可能負載權重問題

   ,或者說我的tomcat(或者其他web容器,記憶體設定問題)  

5、對了,可以試試單點登入一台節點看看,遇到內部程式轉寄的。內部curl看看,

   或者使用httprequest看看post和get訪問的放回那個狀態代碼  200是OK

   大神解說:方案最佳:

【進階】 帝都——大師兄 2016/8/2 21:54:06

我會先看看監控,因為監控上基本上你這些檢測,我都做了。

通過監控資料,先縮小排查範圍。針對性去找故障點,排查。你這一套下來,估計業務中斷也有一段時間了。


【進階】 帝都——大師兄 2016/8/2 21:55:54

快速響應,先把影響降低到最小。這是你應該做的。

【進階】 帝都——大師兄 2016/8/2 21:56:09

問題可以先放後,先把業務恢複上來。

【進階】 帝都——大師兄 2016/8/2 21:56:23

業務是關鍵,問題可以慢慢查。

【進階】 帝都——大師兄 2016/8/2 21:56:41

因為有日誌,和監控資料所以可以慢慢分析具體哪裡導致的業務中斷。

【進階】 帝都——大師兄

整個工作在你接手時,就應該預先考慮到,網站掛掉後,如何可以立刻恢複上來,大公司更是使用者無感知的恢複。小公司因為各種限制,可能會稍微有點影響。

【進階】 帝都——大師兄 2016/8/2 21:59:55

等到網站掛掉,你在去各種查問題,你已經晚了。

【進階】 帝都——大師兄 2016/8/2 22:00:56

個人觀點,僅供參考。


網站故障-排查步驟

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.