在排除了硬體故障/firmware版本/BIOS等等問題之外, Linux死機通常可能碰到如下幾種情況
1, 如果你的Linux死機的時候控制台上有亂七八糟的字元。恭喜你,這種情況叫做oops. 通常是Linux kernel認為自己發生了異常造成的。
可以通過oops訊息尋找出錯的地方。
2, 如果你的機器僵死,那麼問題麻煩了。這種時候,通常是Kernel出現了死結。Kernel不會知道自己死結了,所以不會在螢幕上顯示任何咚咚。
如果運氣好,此時Kernel也許可能能夠響應中斷。不管怎樣,你都無法進一步操作了。
3, 嚴格來說,這第三種情況不算死機,現象如下:輸入命令斷行符號之後命令不能返回任何結果, 但是控制台對斷行符號可能有相應。但是命令無法結束,也不會有輸出結果。
但是可以換到下一個控制台, 而且還可以繼續輸入命令,但是輸入命令之後還是沒有輸出。這種情況會有很多可能。通常是應用程式的系統調用長時間沒有返回或者是滿足不了應用的要求。
以上三種情況,system log的作用都不大。通常日誌都不會紀錄。所以只能使用Kernel的Debug工具。
不過Linus比較狠,人說Kernel不需要Debug工具。所以kernel.org中的代碼是沒有debug工具的。不過目前絕大多數發行版的kernel都帶了debug工具,而且工具都不一樣。
通常進行kernel debug都需要在出現故障的時候採集vmcore. 就是把故障發生的時memory dump出來。(還記得Windows 藍屏的時候會出現1%-100%跳動的一個數字和c盤dump.sys檔案, 這回知道幹什麼的了吧? ) 然後進行分析。也許你會擔心Linux死機了,還怎麼dump
memory啊,這個不用擔心,Kernel還是留了好幾條路子。其中一個是NMI。
那麼到底怎麼dump memory呢? 這裡用REDHAT為例,RHEL3,RHEL4中都使用了netdump作為採集工具,RHEL5使用kdump作為採集工具。
採集完畢就可以對vmcore進行分析,步驟就不細說了。可以參考如下文章:http://people.redhat.com/anderson/crash_whitepaper/
但是對於管理員來說,任何一個debug工具都需要代碼開發的經曆才能順利使用。
最後說一句,最近在壇中看到有人看到死機就往應用程式上懷疑。這是很好的自我批評的精神,要大力發揚。
那麼,指令碼,應用程式會不會導致死機? 當然,但是問題還是出在Kernel上。就比如,應用程式寫檔案,系統可能會掛起在kernel中的檔案系統代碼上。