最常見的5個導致 RAC 執行個體崩潰的問題,rac執行個體崩潰

來源:互聯網
上載者:User

最常見的5個導致 RAC 執行個體崩潰的問題,rac執行個體崩潰

最常見的5個導致 RAC 執行個體崩潰的問題 (文檔 ID 1549191.1)

 

適用於:

OracleDatabase - Enterprise Edition - 版本11.2.0.1 和更高版本
本文檔所含資訊適用於所有平台

用途

本文檔的目的是總結可能導致 RAC 執行個體崩潰的最常見的5種問題以及較早版本(如 10.2.0.5)報告的常見問題。

適用範圍

問題 1 到 5 僅適用於 11gR2 RAC。<版本>的問題 僅適用於提及的版本。

詳細資料

問題 1:ORA-29770 LMHB終止執行個體

癥狀:

LMON (ospid:31216) waits for event 'control file sequential read' for 88 secs.
Errors in file /oracle/base/diag/rdbms/prod/prod3/trace/prod3_lmhb_31304.trc(incident=2329):
ORA-29770: global enqueue process LMON (OSID 31216) is hung for more than 70seconds
LMHB (ospid: 31304) is terminating the instance.


LMON (ospid: 8594) waits for event 'control file sequential read' for 118 secs.
ERROR: LMON is not healthy and has no heartbeat.
ERROR: LMHB (ospid: 8614) is terminating the instance.

可能的原因:

  LMON 等待讀取控制檔案,導致LMHB 使執行個體崩潰
Bug 11890804 LMHB crashes instance withORA-29770 after long "control file sequential read" waits

解決方案:

Bug 8888434 已在 11.2.0.2 及以上版本 中得到修正
Bug 11890804 已在 11.2.0.3及以上版本中得到修正
請參閱 Document 1197674.1, Document 8888434.8 和 Document 11890804.8 瞭解詳細資料

 

問題 2:ORA-481導致的執行個體崩潰

癥狀:

1. PMON (ospid:12585): terminating the instance due to error 481
LMON 進程追蹤檔案顯示:
Begin DRM(107) (swin 0)
* drm quiesce <kjxgmrcfg: Reconfiguration started, type 6 

LMS<x> 進程追蹤檔案顯示:
2011-07-05 10:53:44.218905 : Start affinity expansion for pkey 81885.0
2011-07-05 10:53:44.498923 : Expand failed: pkey 81885.0, 229 shadowstraversed, 153 replayed 1 retries

2. PMON (ospid: 4915562): terminating the instance due to error 481
Sat Oct 01 19:21:37 2011
System state dump requested by (instance=2, osid=4915562 (PMON)),summary=[abnormal instance termination].

可能的原因:

1. Bug 11875294 LMS gets stuck during DRM,Instance crashed with ORA-481
2. HAIP 在部分叢集節點上離線,或者 HAIP 在所有叢集節點上都線上,但是無法通過其進行通訊,例如ping操作失敗。

解決方案:

1. Bug 11875294 已在 11.2.0.3 中得到修正,繞過問題的方法是:
通過設定
_gc_read_mostly_locking=FALSE 來禁用read  mostly。
請參閱 < Document 11875294.8> 瞭解詳細資料。

2. 修正 HAIP 問題,請參閱 Document 1383737.1

 

問題 3:ORA-600[kjbmprlst:shadow]、ORA-600[kjbrref:pkey]、ORA-600[kjbmocvt:rid]、[kjbclose_remaster:!drm]、ORA-600 [kjbrasr:pkey] 導致的執行個體崩潰

癥狀:

由於 ORA-600[kjbmprlst:shadow]、ORA-600[kjbrref:pkey]、ORA-600[kjbmocvt:rid]、[kjbclose_remaster:!drm]或 ORA-600 [kjbrasr:pkey] 導致 RAC 執行個體崩潰

可能的原因:

這一組 ORA-600 與 DRM(dynamic resourceremastering)訊息或 read mostly 鎖有關。涉及多個 bug,包括:
Document 9458781.8 Missing close message tomaster leaves closed lock dangling crashing the instance with assorted Internalerror 
Document 9835264.8 ORA-600 [kjbrasr:pkey] /ORA-600 [kjbmocvt:rid] in RAC with dynamic remastering
Document 10200390.8 ORA-600[kjbclose_remaster:!drm]in RAC with fix for 9979039
Document 10121589.8 ORA-600[kjbmprlst:shadow] can occur in RAC
Document 11785390.8 Stack corruption /incorrect behaviour possible in RAC
Document 12408350.8 ORA-600 [kjbrasr:pkey]in RAC with read mostly locking
Document 12834027.8 ORA-600[kjbmprlst:shadow] / ORA-600 [kjbrasr:pkey] with RAC read mostly locking

解決方案:

上述大部分 bug 都在 11.2.0.3 中得到了修正,安裝 11.2.0.3 補丁集應該可以避免這些 bug,除了 Bug 12834027,此 bug 將在 12.1 中進行修正。繞過這個 bug 的方法是:

禁用 DRM

禁用read mostly
例如:設定 "_gc_read_mostly_locking"=FALSE

有關每個 bug 的說明和解決方案,請參閱上述相關文檔。

 

問題 4:啟用flash cache後產生kcldle/kclfplz/kcbbxsv_l2/kclfprm,導致執行個體崩潰

癥狀:

警報日誌中報告了 ORA-7445[kcldle]
ORA-7445[kclfplz]
ORA-7445[kcbbxsv_12]
ORA-744[kclfprm]

可能的原因:

它們是由不同的 bug 引起的,而這些bug都歸結為 基礎bug Bug 12337941 Dumps on kcldle / kclfplz /kcbbxsv_l2 / kclfprm using flash

解決方案:

此 bug 已在 11.2.0.3 中得到修正,請安裝補丁集或使用以下方法繞過這個問題:禁用 Flash Cache
請參閱 Document 12337941.8 ,瞭解更多詳細資料

 

問題 5:LMS報 ORA-600[kclpdc_21]錯誤,執行個體崩潰

癥狀:

警報日誌中報告了ORA-600[kclpdc_21]

可能的原因:

Document 10040035.8  LMS gets ORA-600[kclpdc_21] and instance crashes 

解決方案:

此 bug 已在 11.2.0.3 中得到修正

 

10.2.0.5的問題

癥狀:

1. LMS進程 報ORA-600[kjccgmb:1]錯誤導致執行個體崩潰, LMS<n>:terminating instance due to error 484
2. 由於以下原因導致執行個體崩潰:
Received an instance abort message from instance 2 (reason 0x0)
Please check instance 2 alert and LMON trace files for detail.
LMD0: terminating instance due to error 481

可能的原因:

1. Bug 11893577 - LMD CRASHED WITH ORA-00600 [KJCCGMB:1] 
2. Bug 9577274 - 1OFF:UNABLE TO VIEW REQUEST OUTPUT AND LOG AFTER APPLYING FIXTO ISSUE IN BUG 9400041

解決方案:

1. 對於 10.2.0.5.0,安裝合并的補丁 12616787
2. 對於 10.2.0.5.5,安裝合并的補丁 13470618
撰寫本文時,只有特定平台才有可用補丁。對於任何 10.2.0.5.x 版本,不需要同時安裝上述兩個補丁。

 


相關文章

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.