Oracle的B* Tree 索引

來源:互聯網
上載者:User

1. B-trees, short for balanced trees, are the most common type of database index.顧名思義,B-Tree是一個平衡樹的結構【注意這裡的B表示Balanced平衡的意思,而不是Binary二叉】,B樹索引也是Oracle裡最為常見的索引類型。B樹索引裡的資料是已經按照鍵字或者是被索引欄位事先排好序存放的,預設是升序存放,也解釋了為什麼我們在建立索引的時候有可能會用到資料庫的暫存資料表空間的臨時段。

索引作為一種可選的資料結構,你可以選擇為某個表裡的建立索引,也可以不建立。這是因為一旦建立了索引,就意味著Oracle對錶進行DML(包括INSERT、UPDATE、DELETE)時,必須處理額外的工作量(也就是對索引結構的維護)以及儲存方面的開銷。所以建立索引時,需要考慮建立索引所帶來的查詢效能方面的提高,與引起的額外的開銷相比,是否值得。

B樹索引內部結構
B樹索引是一個典型的樹結構,其包含的組件主要是:
1) 葉子節點(Leaf node):資料行的索引值(key value)、索引值對應資料行的 ROWID。
2) 分支節點(Branch node):最小的索引值首碼(minimum key prefix),用於在(本塊的)兩個索引值之間做出分支選擇,指向包含所尋找索引值的子塊(child block)的指標()所有的 索引值-ROWID 對(key and ROWID pair)都與其左右的兄弟節點(sibling)向連結(link),並按照(key,ROWID)的順序排序
3) 根節點(Root node):一個B樹索引只有一個根節點,它實際就是位於樹的最頂端的分支節點。

圖一

圖二

A: 對於分支節點塊(包括根節點塊)來說,其所包含的索引條目都是按照順序排列的(預設是升序排列,也可以在建立索引時指定為降序排列)。每個索引條目(也可以叫做每條記錄)都具有兩個欄位。第一個欄位表示當前該分支節點塊下面所連結的索引塊中所包含的最小索引值;第二個欄位為四個位元組,表示所連結的索引塊的地址,該地址指向下面一個索引塊。在一個分支節點塊中所能容納的記錄行數由資料區塊大小以及索引索引值的長度決定。比如從一可以看到,對於根節點塊來說,包含三條記錄,分別為(0 B1)、(500 B2)、(1000
B3),它們指向三個分支節點塊。其中的0、500和1000分別表示這三個分支節點塊所連結的索引值的最小值。而B1、B2和B3則表示所指向的三個分支節點塊的地址。

B: 對於葉子節點塊來說,其所包含的索引條目與分支節點一樣,都是按照順序排列的(預設是升序排列,也可以在建立索引時指定為降序排列)。每個索引條目(也可以叫做每條記錄)也具有兩個欄位。第一個欄位表示索引的索引值,對於單列索引來說是一個值;而對於多列索引來說則是多個值組合在一起的。第二個欄位表示索引值所對應的記錄行的ROWID,該ROWID是記錄行在表裡的物理地址。如果索引是建立在非分區表上或者索引是分區表上的本地索引的話,則該ROWID佔用6個位元組;如果索引是建立在分區表上的全域索引的話,則該ROWID佔用10個位元組。

C: 知道這些資訊以後,我們可以舉個例子來說明如何估算每個索引能夠包含多少條目,以及對於表來說,所產生的索引大約多大。對於每個索引塊來說,預設的PCTFREE為10%,也就是說最多隻能使用其中的90%。同時9i以後,這90%中也不可能用盡,只能使用其中的87%左右。也就是說,8KB的資料區塊中能夠實際用來存放索引資料的空間大約為6488(8192×90%×88%)個位元組。

D: 假設我們有一個非分區表,表名為warecountd,其資料行數為130萬行。該表中有一個列,列名為goodid,其類型為char(8),那麼也就是說該goodid的長度為固定值:8。同時在該列上建立了一個B樹索引。
在葉子節點中,每個索引條目都會在資料區塊中佔一行空間。每一行用2到3個位元組作為行頭,行頭用來存放標記以及鎖定類型等資訊。同時,在第一個表示索引的索引值的欄位中,每一個索引列都有1個位元組表示資料長度,後面則是該列具體的值。那麼對於本例來說,在葉子節點中的一行所包含的資料大致如二所示:

圖三

從可以看到,在本例的葉子節點中,一個索引條目占 18 個位元組。同時我們知道8KB的資料區塊中真正可以用來存放索引條目的空間為
6488 位元組,那麼在本例中,一個資料區塊中大約可以放360(
6488/18 )個索引條目。而對於我們表中的130 萬條記錄來說,則需要大約
3611 ( 1300000/360 )個葉子節點塊。

而對於分支節點裡的一個條目(一行)來說,由於它只需儲存所連結的其他索引塊的地址即可,而不需要儲存具體的資料行在哪裡,因此它所佔用的空間要比葉子節點要少。分支節點的一行中所存放的所連結的最小索引值所需空間與上面所描述的葉子節點相同;而存放的索引塊的地址只需要4個位元組,比葉子節點中所存放的
ROWID 少了 2 個位元組,少的這 2
個位元組也就是 ROWID中用來描述在資料區塊中的行號所需的空間。因此,本例中在分支節點中的一行所包含的資料大致如所示:

圖四

 

從可以看到,在本例的分支節點中,一個索引條目占 16 個位元組。根據上面葉子節點相同的方式,我們可以知道一個分支索引塊可以存放大約405
( 6488/16 )個索引條目。而對於我們所需要的3611
個葉子節點來說,則總共需要大約 9 個分支索引塊。

這樣,我們就知道了我們的這個索引有 2 層,第一層為1
個根節點,第二層為 9 個分支節點,而葉子節點數為 3611
個,所指向的表的行數為 1300000 行。但是要注意,在 oracle
的索引中,層級號是倒過來的,也就是說假設某個索引有 N 層,則根節點的層級號為N
,而根節點下一層的分支節點的層級號為 N-1 ,依此類推。對本例來說,9
個分支節點所在的層級號為 1 ,而根節點所在的層級號為2

注意:在Oracle中null被定義為無限大,且null不等於null,故在索引不會存有與null值對應的條目。如果不加其他限制條件的對錶進行is null掃描,將會是全表掃描,如果是is not null掃描將會是全索引掃描。

參考資料:

http://space.itpub.net/?uid-9842-action-viewspace-itemid-312607

http://czmmiao.diandian.com/post/2012-04-09/19078436

http://blog.csdn.net/v_JULY_v/article/details/6530142

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.