概述:
Oracle資料庫是目前業界最常用的大型資料庫系統,我在實際項目中遇到出現ORA-00257錯誤(空間不足錯誤),通過尋找資料,絕大部分說這是由于歸檔日誌太多,佔用了全部的硬碟剩餘空間導致的,通過簡單刪除日誌或加大儲存空間就能夠解決。但是我在Oracle 10g上發現,儲存空間還有很大,卻也報這個錯誤。原來是Oracle 10g中新的特性,對Flash Recovery的管理導致的。
1、軟硬體環境
伺服器HP Proliant DL580G4(Intel Xeon 3.16GHz/4GB/ 72.8*4/RAID4)
作業系統Red Flag DC Server release 5.0 (Trinity) for x86-64 Linux
資料庫Oracle 10.2.0.1.0
2、問題現象
資料庫系統已經試運行了半個多月,在7月24日晚上串連資料庫後做資料更新時出現ORA-00257錯誤,如下圖。
提示歸檔錯誤,通過尋找ORACLE錯誤碼,解釋為硬碟空間不足,需要刪除歸檔日誌增加空間,但是伺服器可用空間200GB,目前只用了10GB左右,這是為什麼呢?
3、診斷過程:
1)查看ORACLE資料庫歸檔日誌情況
[root@hrmsdb /]# cd /oracle/flash_recovery_area/HKCHR/archivelog [root@hrmsdb archivelog]# ls 2006_07_04 2006_07_13 2006_07_17 2006_07_20 2006_07_23 2006_07_11 2006_07_14 2006_07_18 2006_07_21 2006_07_24 2006_07_12 2006_07_15 2006_07_19 2006_07_22 2006_07_25 [root@hrmsdb archivelog]# cd 2006_07_25 [root@hrmsdb 2006_07_25]# ls [root@hrmsdb 2006_07_25]# cd ../2006_07_24 [root@hrmsdb 2006_07_24]# ls o1_mf_1_92_2d933vgb_.arc o1_mf_1_96_2d954ns7_.arc o1_mf_1_98_2d969d5h_.arc o1_mf_1_95_2d9537cs_.arc o1_mf_1_97_2d956km0_.arc |
說明在出現問題之前資料庫歸檔處理一直是正常的。
2)查看資料庫REDOLOG情況
[oracle@hrmsdb ~]$ sqlplus /nolog SQL*Plus: Release 10.2.0.1.0 - Production on 星期二 7月 25 10:44:18 2006 Copyright (c) 1982, 2005, Oracle. All rights reserved. SQL> connect / as sysdba 已串連。 SQL> select * from v$log; GROUP# THREAD# SEQUENCE# BYTES MEMBERS ARC STATUS FIRST_CHANGE# FIRST_TIME ---------- ---------- ---------- ---------- ---------- --- --------------------------------------- -------------- 1 1 101 52428800 1 NO CURRENT 3621973 24-7月 -06 2 1 99 52428800 1 NO INACTIVE 3600145 24-7月 -06 3 1 100 52428800 1 NO INACTIVE 3611932 24-7月 -06 |
發現ARC狀態為NO,表示系統沒法自動做歸檔。
3)手工切換日誌
SQL> alter system switch logfile; alter system switch logfile * 第 1 行出現錯誤: |
ORA-01013: 使用者請求取消當前的操作
在等待長時間沒反應後,中斷操作,手工切換日誌沒有成功。
4)查看Oracle資料庫後台歸檔服務進程
[oracle@hrmsdb ~]$ ps -ef|grep oracle oracle 4601 1 0 Jul11 ? 00:00:04 /oracle/product/10.2.0/db_1/bin/ tnslsnr LISTENER -inherit oracle 5025 1 0 Jul11 ? 00:00:00 /usr/bin/ssh-agent -s oracle 20923 1 0 Jul24 ? 00:00:01 ora_pmon_hkchr oracle 20925 1 0 Jul24 ? 00:00:00 ora_psp0_hkchr oracle 20927 1 0 Jul24 ? 00:00:00 ora_mman_hkchr oracle 20929 1 0 Jul24 ? 00:00:01 ora_dbw0_hkchr oracle 20931 1 0 Jul24 ? 00:01:07 ora_lgwr_hkchr oracle 20933 1 0 Jul24 ? 00:00:05 ora_ckpt_hkchr oracle 20935 1 0 Jul24 ? 00:00:01 ora_smon_hkchr oracle 20937 1 0 Jul24 ? 00:00:00 ora_reco_hkchr oracle 20939 1 0 Jul24 ? 00:00:00 ora_cjq0_hkchr oracle 20941 1 0 Jul24 ? 00:00:01 ora_mmon_hkchr oracle 20943 1 0 Jul24 ? 00:00:05 ora_mmnl_hkchr oracle 20945 1 0 Jul24 ? 00:00:00 ora_d000_hkchr oracle 20947 1 0 Jul24 ? 00:00:00 ora_s000_hkchr oracle 20953 1 0 Jul24 ? 00:09:41 ora_arc0_hkchr oracle 20955 1 1 Jul24 ? 00:10:29 ora_arc1_hkchr oracle 20959 1 0 Jul24 ? 00:00:00 ora_qmnc_hkchr oracle 20967 1 0 Jul24 ? 00:00:00 ora_q000_hkchr oracle 20969 1 0 Jul24 ? 00:00:00 ora_q001_hkchr oracle 21715 1 0 Jul24 ? 00:00:19 oraclehkchr (LOCAL=NO) oracle 21765 1 0 Jul24 ? 00:00:00 ora_j000_hkchr oracle 21816 1 0 Jul24 ? 00:00:00 ora_j001_hkchr oracle 21832 1 0 Jul24 ? 00:00:00 ora_j002_hkchr oracle 21839 1 0 Jul24 ? 00:00:00 ora_j003_hkchr oracle 21859 1 0 Jul24 ? 00:00:00 ora_j004_hkchr oracle 21861 1 0 Jul24 ? 00:00:00 ora_j005_hkchr oracle 21886 1 0 Jul24 ? 00:00:00 ora_j006_hkchr oracle 21888 1 0 Jul24 ? 00:00:00 ora_j007_hkchr root 23187 23186 0 10:39 ? 00:00:00 login -- oracle oracle 23188 23187 0 10:39 pts/0 00:00:00 -bash oracle 23216 23188 0 10:39 pts/0 00:00:00 sqlplus oracle 23217 23216 0 10:39 ? 00:00:00 oraclehkchr (DESCRIPTION=(LOCAL= YES)(ADDRESS=(PROTOCOL=beq))) root 23224 23223 0 10:40 ? 00:00:00 login -- oracle oracle 23225 23224 0 10:40 pts/1 00:00:00 -bash oracle 23310 23225 0 10:46 pts/1 00:00:00 ps -ef oracle 23311 23225 0 10:46 pts/1 00:00:00 grep oracle [oracle@hrmsdb ~]$ 後台進程都正常運行。 |
5)查看FLASH_RECOVERY_AREA空間使用方式
[root@hrmsdb /]# cd /oracle [root@hrmsdb oracle]# ls admin flash_recovery_area oraInventory product [root@hrmsdb oracle]# du -a -k flash_recovery_area 4 flash_recovery_area/HKCHR/onlinelog 42456 flash_recovery_area/HKCHR/archivelog/2006_07_15/o1_mf_1_74_2cj1h1jz_.arc ………………. 42448 flash_recovery_area/HKCHR/archivelog/2006_07_14/o1_mf_1_68_2cfzwwvt_.arc 512560 flash_recovery_area/HKCHR/archivelog/2006_07_14 1469224 flash_recovery_area/HKCHR/archivelog 6988 flash_recovery_area/HKCHR/backupset/2006_07_04/o1_mf_ncsnf_TAG20060704T1 74229_2bng1o0b_.bkp 876916 flash_recovery_area/HKCHR/backupset/2006_07_04/o1_mf_nnndf_TAG20060704T1 74229_2bng0cx4_.bkp 883908 flash_recovery_area/HKCHR/backupset/2006_07_04 883912 flash_recovery_area/HKCHR/backupset 2353144 flash_recovery_area/HKCHR 2353148 flash_recovery_area [root@hrmsdb oracle]# FLASH_RECOVERY_AREA空間使用了2.35GB |
6)查看FLASH_RECOVERY_AREA空間中各部分使用方式
SQL> select * from v$recovery_file_dest; NAME SPACE_LIMIT SPACE_USED SPACE_RECLAIMABLE NUMBER_OF_FILES ------------------------------------------------------------------------------------------------------------------ /oracle/flash_recovery_area 2147483648 2134212608 0 35 SQL> select * from v$flash_recovery_area_usage; FILE_TYPE PERCENT_SPACE_USED PERCENT_SPACE_RECLAIMABLE NUMBER_OF_FILES ------------ ------------------ ------------------------- ---------------- -------------- -------------- ------------- CONTROLFILE 0 0 0 ONLINELOG 0 0 0 ARCHIVELOG 69.97 0 40 BACKUPPIECE 30.01 0 2 IMAGECOPY 0 0 0 FLASHBACKLOG 0 0 0 已選擇6行。 |
發現ARCHIVELOG占近70%,BACKUPPIRCR佔了30%,這樣FLASH_RECOVERY_AREA空間的空間已經被完全佔據了。
4、解決過程
根據資料庫目前可用儲存空間為200GB、FLASH_RECOVERY_AREA空間為2GB的實際情況,把FLASH_RECOVERY_AREA的空間修改為20GB。
SQL> alter system set DB_RECOVERY_FILE_DEST_SIZE=20g; 系統已更改。 SQL> select * from v$recovery_file_dest; ------------------------------------------------------- ---------- ----------------------------------- NAME SPACE_LIMIT SPACE_USED SPACE_RECLAIMABLE NUMBER_OF_FILES ----------- ---------- ----------------- ------------- -------------- ---------- ---------- ------------ /oracle/flash_recovery_area 2.1475E+10 2264587776 0 38 |
這時再查看日誌的狀態,發現REDO LOG處於正常的歸檔狀態。
SQL> select * from v$log; GROUP# THREAD# SEQUENCE# BYTES MEMBERS ARC STATUS FIRST_CHANGE# FIRST_TIME ---------- ---------- ---------- ---------- ---------- --- -------------------------------------------- -------------- 1 1 101 52428800 1 YES ACTIVE 3621973 24-7月 -06 2 1 102 52428800 1 NO CURRENT 3650399 25-7月 -06 3 1 100 52428800 1 YES INACTIVE 3611932 24-7月 -06 SQL> select * from v$flash_recovery_area_usage; FILE_TYPE PERCENT_SPACE_USED PERCENT_SPACE_RECLAIMABLE NUMBER_OF_FILES ------------ ------------------ ------------------------- --------------- CONTROLFILE 0 0 0 ONLINELOG 0 0 0 ARCHIVELOG 7.6 0 43 BACKUPPIECE 4.21 0 2 IMAGECOPY 0 0 0 FLASHBACKLOG 0 0 0 已選擇6行。 SQL> |
5、小結
造成本次故障的原因由兩方面同時發生所造成的:
·其一是Flash_Recovery_Area空間預設安裝時比較小,只有2GB,容易用完;
·其二是由於採用歸檔方式通過Veritas備份,由於備份軟體沒有運行,造成歸檔日誌沒有及時刪除。
從本次故障解決處理中,我們可以得出經驗教訓:
·Oracle 10g資料庫物理空間管理方式與以前Oracle發生了變化,對歸檔日誌所在的Flash_Recovery_Area空間進行了另外限制;
·對資料庫系統管理員要對Oracle資料庫歸檔日誌、備份軟體健全狀態定期檢查,提前發現、處理可能發生的故障。