標籤:mce-inject mce mcelog 故障注入
mce-inject功能
mce-inject用於測試mcelog能否正確的擷取硬體錯誤資訊,並進行正確解碼,mce-inject可以向核心注入指定的錯誤資訊,因此,可以很方便的瞭解到mcelog的功能是否正常。
這裡需要注意的是,當使用者利用mce-inject工具向核心注入不可恢複錯誤(如:fatal)時,會發生死機重新啟動等現象,當然,可以通過更改sys檔案系統下的tolerate檔案來避免此現象的發生。
tolerate檔案配置
位置:/sys/devices/system/machinecheck/machinecheck*/
說明:其中machinecheck*中的*號由CPU的個數所決定的,如果是雙核的,則存在machinecheck0和machinecheck1兩個目錄,對應目錄裡都有一個tolerate檔案,tolerate中存放容忍程度值。
功能:向使用者提供一個可選擇的出現相應硬體錯誤時的容忍程度(tolerate),比如:當tolerate的值為1時,出現fatal錯誤時就會死機,重新啟動,並且該錯誤資訊並不被記錄;當tolerate的值為3時(注意該值只用於測試),在出現fatal錯誤時,機器會容忍該錯誤不予響應,不會出現死機重新啟動現象,並且會記錄相關錯誤資訊。
以root身份進入相應的目錄進行查看即可。如:
#cd /sys/devices/system/machinecheck/machinecheck0
#cat tolerate
查看CPU0的tolerate值。
以root身份進入相應的目錄進行修改即可,設定tolerate的方法很多,如:
#cd /sys/devices/system/machinecheck/machinecheck0
#echo 3 >tolerate
tolerate的取值可以為0、1、2、3。
0: always panic on uncorrected errors, log corrected errors
1: panic or SIGBUS on uncorrected errors, log corrected errors
2: SIGBUS or log uncorrected errors (if possible), log corrected errors
3: never panic or SIGBUS, log all errors (for testing only)
mce-inject使用
mce-inject的使用方法也很簡單,不過在使用前要現將tolerate的值修改為3,以防止死機重啟事件發生,然後,在終端以root身份執行:
mce-inject filename ...
filename 存放要注入的具體錯誤類型
例如,一個mce-filename檔案correct的內容為:
CPU 1 BANK 2 STATUS corrected RIP 0x12341234 |
執行時,只需在終端輸入:
#mce-inject ./correct
即可成功注入,詳細的輸出結果可以查看/var/log/mcelog檔案。
當然,你可以自己編寫相關的注入指令碼。
本文出自 “敏而好學” 部落格,請務必保留此出處http://dangzhiqiang.blog.51cto.com/7961271/1782896
mce-inject使用方法