Oracle資料庫壞塊(corruption)-物理壞塊
概述
-------------
資料庫壞塊(corruption) 的類型可以按照壞塊所屬對象的不同,分為使用者資料壞塊,資料字典壞塊,Undo壞塊,控制檔案壞塊,Redo壞塊,Lob壞塊,index壞塊等等;也可以按照壞塊產生的原因,分為物理壞塊(physical corruption)和邏輯壞塊(logical corruption )。
本文主要討論使用者資料發生物理壞塊(physical corruption)分析和解決方案。
物理壞塊
-------------
常見的物理壞塊(Physical Block Corruptions)有塊頭和塊尾資訊不一致(Fractured/Incomplete),checksum值無效,資料區塊資訊全部為0等情況,並且可能伴隨錯誤ORA-1578和ORA-1110
為了及時發現物理壞塊和準確定位壞塊產生的原因,Oracle建議設定初始化參數DB_BLOCK_CHECKSUM=TYPICAL(預設值)。一般情況下,物理壞塊是由於底層OS/disk系統錯誤/損壞,導致資料區塊被修改,資料區塊標誌為壞塊(corruption)。
Case分享
-------------
資料區塊的Checksum值無效是一種常見的物理壞塊,當資料庫初始化參數DB_BLOCK_CHECKSUM=TYPICAL(預設值)時,DBWR進程將資料區塊寫入disk時會計算資料區塊的Checksum,並且將Checksum值記錄在資料區塊的位置offset 16和17;當從disk讀取該資料區塊時,oracle重新計算資料區塊的Checksum,並且與記錄在資料區塊中的Checksum做異或運算(Xor),如果異或結果為非0,說明資料區塊被修改過,資料區塊為壞塊(corruption)。
1. 當前資料庫初始化參數配置DB_BLOCK_CHECKSUM=TYPICAL,因此從disk讀取資料區塊時校正checksum:
SQL> show parameter DB_BLOCK_CHECKSUM
NAME TYPE VALUE
------------------------------------ ----------- ------------------------------
db_block_checksum string TYPICAL
2. 查詢表dept時發現有壞塊,報錯資訊ORA-1578和ORA-1110,壞塊為file # 4, block # 133
SQL> select * from dept;
select * from dept
*
ERROR at line 1:
ORA-01578: ORACLE data block corrupted (file # 4, block # 133)
ORA-01110: data file 4: '/u01/app/oracle/oradata/orcl/users01.dbf'
3. 出現以上錯誤的同時在alert log中也有詳細錯誤資訊,這些錯誤資訊說明資料區塊(file # 4, block # 133)損壞的原因是checksum無效。資料區塊中記錄的checksum值為0x8167(這個值是上一次DBWR寫入磁碟時計算的),讀取資料區塊時重新計算得到的checksum是0x8122,checksum值異或運算(Xor)的結果是0x45 (computed block checksum)。由於兩次checksum值不同(即異或結果為非0),說明資料區塊被修改過,資料區塊為壞塊(corruption)。
Alert log錯誤資訊:
Hex dump of (file 4, block 133) in trace file /u01/app/oracle/diag/rdbms/orcl/orcl/trace/orcl_ora_20892.trc
Corrupt block relative dba: 0x01000085 (file 4, block 133)
Bad check value found during multiblock buffer read <<<<<<<<<<<<<< 說明壞塊的原因是checksum無效
Data in bad block:
type: 6 format: 2 rdba: 0x01000085
last change scn: 0x0000.0023d69a seq: 0x5 flg: 0x06
spare1: 0x0 spare2: 0x0 spare3: 0x0
consistency value in tail: 0xd69a0605
check value in block header: 0x8167 <<<<<<<<<<<<<< 資料區塊中記錄的checksum值為0x8167
computed block checksum: 0x45 <<<<<<<<<<<<<< 0x8167與0x8122異或運算(Xor)的結果是0x45
Reading datafile '/u01/app/oracle/oradata/orcl/users01.dbf' for corruption at rdba: 0x01000085 (file 4, block 133)
Reread (file 4, block 133) found same corrupt data (no logical check)
Sun Mar 23 22:53:40 2014
Corrupt Block Found
TSN = 4, TSNAME = USERS
RFN = 4, BLK = 133, RDBA = 16777349
OBJN = 14343, OBJD = 14343, OBJECT = DEPT, SUBOBJECT =
SEGMENT OWNER = JAMES, SEGMENT TYPE = Table Segment <<<<<<<<<<<<<< 壞塊對應的object ID
Errors in file /u01/app/oracle/diag/rdbms/orcl/orcl/trace/orcl_ora_20892.trc (incident=182595):
ORA-01578: ORACLE data block corrupted (file # 4, block # 133)
ORA-01110: data file 4: '/u01/app/oracle/oradata/orcl/users01.dbf'
4.1 對應的orcl_ora_20892.trc中也有資料區塊的資訊,其中資料區塊上記錄的checksum值是0x8167(chkval)
Block dump from disk:
buffer tsn: 4 rdba: 0x01000085 (4/133)
scn: 0x0000.0023d69a seq: 0x05 flg: 0x06 tail: 0xd69a0605
frmt: 0x02 chkval: 0x8167 type: 0x06=trans data
Hex dump of block: st=0, typ_found=1
4.2 通過dd也查看資料區塊中記錄的checksum值, offset 16,17 對應的是checksum值0x8167
$ dd if=/u01/app/oracle/oradata/orcl/users01.dbf bs=8192 count=1 skip=133 of=/tmp/dd133.out
$ od -x /tmp/dd133.out
0000000 a206 0000 0085 0100 d69a 0023 0000 0605
0000020 8167 0000 0001 0000 3807 0000 2fef 000c
^^^^
5. 修複資料壞塊的方法可以通過備份恢複或者DBMS_REPAIR.SKIP_CORRUPT_BLOCKS跳過壞塊。
5.1 方法#1 RMAN資料區塊恢複:
RMAN> run {blockrecover datafile 4 block 133;}
SQL> select * from dept;
DEPTNO DNAME LOC
---------- -------------- -------------
10 ACCOUNTING DALIAN
20 RESEARCH DALLAS
30 SALES CHICAGO
40 OPERATIONS BOSTON
5.2 方法#2 DBMS_REPAIR.SKIP_CORRUPT_BLOCKS跳過壞塊,然後將dept表中的其他資料匯出重建表
SQL> alter session set db_file_multiblock_read_count=1;
SQL> execute DBMS_REPAIR.SKIP_CORRUPT_BLOCKS('JAMES','DEPT');
SQL> create table dept_new as select * from dept;