Linux系統“死機”時解決方案

來源:互聯網
上載者:User

如果問題能夠再現,那麼問題已經解決 80% 了。對於作業系統核心而言,如果有問題的再現方法,那麼可以說是已經解決 99% 了。經常遇到的問題是系統可以正常運行一段時間,然後死機。如果不好再現問題,那麼只有根據死機現場遺留的東西來進行分析了。

如果系統沒有死乾淨,比如磁碟中斷和檔案系統是好的,那麼也許能有日誌資訊保留在檔案中,不過這樣的好運氣我是從來沒有遇到過的。如果鍵盤中斷還能響應 (按下Num Lock,可以看見鍵盤小燈亮滅),那麼運氣就算是足夠好了,這時可以祭出 sysrq 大法,同步選取 Alt-Sysrq-T 獲得進程系統堆棧資訊,按下 Alt-Sysrq-M 獲得記憶體配置資訊,按下 Alt-Sysrq-W 獲得當前寄存器資訊。

linux/Documentation/sysrq.txt。另外,最好關閉終端的自動 blank 功能,這樣系統死的時候至少能從螢幕上看到一些資訊。設定方法是:

# echo 1 > /proc/sys/kernel/sysrq

# setterm -blank
這兩個設定最好加到系統啟動指令碼中 (比如 /etc/rc.d/rc.local),保證每次啟動都能得到運行。
如果很不幸,鍵盤也死悄悄了,(更為不幸的是,這種情況很常見),那麼也不是只有等死一個辦法,這時可以用串口終端 (serial console)將系統資訊發送

到另一台系統上,這樣可以通過對這些資訊分析來定位問題。設定方法如下:

準備工作

1. 一台被監視的伺服器,一台進行監視工作的PC。
2. 一根串口直連線。
配置
1. 在伺服器上,加入一個新的 grub 項目,增加核心參數 "console=ttyS0 console=tty1",如:
kernel /boot/vmlinuz-2.4.21-9.30AXsmp ro root=LABEL=/1 console=ttyS0
console=tty1
2. 在伺服器上,修改 /etc/sysconfig/syslog,加入 klogd 選項 "-c 7",保證更多核心資訊得到輸出。如:
KLOGD_OPTIONS="-x -c 7"
3. 重新啟動伺服器
4. 用串口直連線串連兩台機器,測試:
1) 在PC上運行 "cat /dev/ttyS0",在伺服器上運行 "echo hi > /dev/ttyS0",看在 PC 上是否有 "hi" 輸出。
2) 在PC上運行 "cat /dev/ttyS0",在伺服器上運行 "echo w > /proc/sysrq-trigger",看 PC 上是否有相應核心資訊輸出。
3) 在PC上運行 "cat /dev/ttyS0",在伺服器上運行 "modprobe loop",看 PC 上是否有相應核心資訊輸出。
5. 如果測試通過,那麼在 PC 上運行:cat /dev/ttyS0 | tee /tmp/result
另外,也可以用 Windows 超級終端獲得串口資訊。
that's it.
此外,一些核心支援 LKCD, netdump 等調試功能,也可以一試。
剩下的,就只有靠經驗和運氣了,一般造成 Linux 系統死機的原因有:
系統硬體問題 (SCSI 卡,主板,RAID 卡,網卡,硬碟...)
外圍硬體問題 (終端切換器,網路...)

軟體問題

驅動 bug (去找更新的驅動試試)

核心系統 bug (去 LKML 上看看,或換個核心試試)

系統設定

最後,google一把。有時候你可以直接輸入 "Linux 系統死機怎麼辦?"

PE6650 經常死機",看有沒有人遇到過和你同樣的問題。即使沒有找到,也是一個有助於分析問題的資訊,至少說明你的系統可能有和其他人不同之處。

調查 Linux 系統死機問題,這既是科學又是藝術,牽扯到眾多的硬體軟體知識和經驗,是一個不斷學習的過程

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.