記一次因網卡心跳故障引發RAC節點重啟故障分析,rac節點

來源:互聯網
上載者:User

記一次因網卡心跳故障引發RAC節點重啟故障分析,rac節點

資料庫與CRS版本:10.2.0.4

down機過程分析

序號

節點

時間

動作

日誌源

1

Jul 4 22:48:15

XXdb2 kernel: NETDEV WATCHDOG: eth1: transmit timed out

bnx2: fw sync timeout, reset code = 1020015

OS

2

Jul 4 22:48:29

--

Jul 4 22:49

CRS-1612:node XXdb1 (1) at 50% heartbeat fatal, eviction in 29.118 seconds

]CRS-1610:node XXdb1 (1) at 90% heartbeat fatal, eviction in 5.128 seconds

CRS

3

Jul 4 22:54:14

XXdb2 syslogd 1.4.1: restart

OS

4

Jul 4 22:54:14

XXdb2 ifup: Device eth1 has different MAC address than expected, ignoring.

XXdb2 network: Bringing up interface eth1:  failed

OS

5

Jul  5 01:22:27 -- Jul  5 01:58:49

XXdb2 logger: Cluster Ready Services waiting on dependencies. Diagnostics in /tmp/crsctl.5659

OS

6

Jul 5 01:59:30

XXdb2 shutdown: shutting down for system reboot

OS

7

Jul 5 03:00:08

CRS-1605:CSSD voting file is online: /dev/raw/raw18. Details in /home/oracle/product/10.2.0/crs/log/XXdb2/cssd/ocssd.log

CRS

8

Jul 4 23:00:00

CRS-1612:node XXdb2 (2) at 50% heartbeat fatal, eviction in 29.144 seconds

CRS

9

Jul  4 23:04:55

XXdb1 syslogd 1.4.1: restart

OS

從上面日誌來看,整個故障過程如下:

(1) 第二節點作業系統發現eth1(心跳網卡)網路逾時,隨後第二節點資料庫連接第一節點逾時,逾時4次之後,第二節點資料庫強制重啟作業系統

(2) 第二節點重啟後, eth1起不來,導致CRS等待資源啟動中,而也無法啟動,CRS日誌中的/tmp/crsctl.5659中記錄是在等待內部心跳網卡的啟動

(3) 第二節點被重啟後,第一節點串連第二節點心跳逾時,第一節點強制重啟作業系統

(4) 問題的源頭源於第二節點的心跳網路出現故障所致,並且第二節點因為eth1網卡的運行mac地址與實際mac地址不相符而導致重啟伺服器後eth1網卡啟不來


本文作者:踩點,從事”系統架構、作業系統、存放裝置、資料庫、中介軟體、應用程式“六個層面系統性的效能最佳化工作

歡迎加入 系統效能最佳化專業群 ,共同探討效能最佳化技術。群號:258187244



實驗室linux(suse)大概每隔一小時自動reboot一次問怎檢查出異常資訊並取消自動重啟

查看各種日誌,包括系統日誌,應用日誌,資料庫日誌,系統自動重啟的原因比較多樣,可能是硬體問題(如,主板出問題或磁陣串連問題等)、系統訂製任務、應用程式故障或bug(如,應用大量佔用記憶體溢出等)、資料庫故障(如,rac心跳網路連接失敗導致rac自動調用重啟等。)。這個只能一步一步排查。
 
電腦要開二次,才可以啟動第一次開機等待十多分鐘,不可以顯示,再暖開機才可以開機要就跳掉關機

你好,你這是典型的硬體故障,但是不用擔心,不是大故障,這種故障是CPU啟動電壓不足引起,原因有兩種可能:
1、主板上CPU供電電容損壞,電容電量不足引起啟動電壓不夠,電腦不能正常啟動。經過很長時間才能啟動是因為電容損壞後需要更久的充電時間達到正常啟動電壓。重啟正常是因為電容在初次開機後受熱,再次充電時容易充滿,基本達到壓動電壓。但是只要冷啟動就需要類似加熱的過程。
2、電源損壞,電源的輸出電壓不足,也就是說如上所述的故障出現電源上,而不是主板上。原因說明同上理,不再贅述。
總之,這種故障是CPU啟動電壓不足引起,不是大故障,不用擔心。
處理方法:更換損壞的電容,一般有多個。
如果你沒有相對豐富的電腦拆裝經驗和基本的電理知識,建議你帶去維修點更換,這個費用不高,一二十塊錢就可以搞定(電容一個才一兩毛錢,這個錢其實就是手工費,不要讓蒙了)。
如果你有較豐富的電腦拆裝機經驗,且懂基本的電理知識,你自已可以如下所述動手搞定:
1、判斷故障所在。通過更換相同或相似的電腦電源,試試電腦是否正常啟動,如果是,那故障的是你的電源,你可以選擇買新的電源或自已維修電源。如果否,那就看按下面的2來做
2、查看電腦主板上CPU周圍的所有電容(如果你要問我什麼是電容,那就趕緊往維修點抱電腦,不要再往下看了,呵呵),你會看到有一些電容是鼓起來的,甚至鼓暴了的,這些都是需要更換的電容,你把這些電容的型號記下來,去電子市場買到相同的,自已換上。焊接時一定要讓烙鐵足夠熱,要一次熔化,不能放太久,尤其是裝新電容時不能過久受熱,否則就會損壞電容。
如果是電源的故障,那跟上面的差不多,你自已開啟電源更換一下就行,電源上可能有另一種電容,就是看上去象石頭一樣的那種,你要看仔細。
處理方法如上,請你自已權衡。
最後建議:
1、如果自已動手,那成本就是幾塊錢,但有一定風險,因為我們畢竟不是專業人士。
2、還是建議你抱到維修點去修一下,保險一點,也花不了多少錢。

希我的回答能解決你的問題。
 

相關文章

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.