其實對於非專業的資料庫操作人員來講,例如軟體開發人員,在很大程度上都搞不清楚資料庫索引的一些基本知識,有些是知其一不知其二,或者是知其然不知其所以然。造成這種情況的主要原因我覺的是行業原因,有很多公司都有自己的DBA團隊,他們會協助你最佳化SQL,開發人員即使不懂最佳化問題也不大,所以開發人員對這方面也就不會下太多功夫去瞭解SQL最佳化,但如果公司沒有這樣的DBA呢,就只能靠程式員自己了。 最近突然想起前一陣和一朋友的聊天,當時他問我的問題是一個非常普通的問題:說說SQL叢集索引和非叢集索引的區別。
大家可能認為這個問題難度不大,認為太熟悉了,也許不會感興趣,但你真能說清楚嗎?其實要想說明白這兩者的差別也不是三兩句就說的清的,那天我也是覺的這問題太泛了,就隨便說了其中的兩個區別:
上面的兩點從大的方面講都是講的通的,後面我們繼續探討,舉一個實際點的例子,一個學生表student,裡面是學生號id,學生姓名,學生所在城市ID,學產生績(總分)。
問:如果想按姓名查詢,如何做最佳化?
答:在姓名欄位上建立索引。
問:建立什麼類型的索引?
答:建立非叢集索引。
問:為什嗎?
答:一般有範圍查詢的需求,可以考慮在此欄位上建立叢集索引。
問:學分有重複性,在學分欄位上建立叢集索引能行嗎?
....沉思,不能建立嗎?之前的項目好像真這樣做過,答:應該可以吧。
問:叢集索引的約束是什嗎?
答:唯一性啊?
問:既然是唯一性,那麼學分欄位上還能建立叢集索引嗎?
....再次沉思,應該可以啊,但索引的約束又怎麼說呢?答:應該可以的,以前用過。
我自認為是對資料庫索引知識有一定研究的,但可能是有兩年沒實際接觸SQL的原因,一時還真想不出具令人信服的解釋,朋友們看到這能解答我的問題嗎?
其實上面的我們需要搞清楚以下幾個問題:
第一:叢集索引的約束是唯一性,是否要求欄位也是唯一的呢?
分析:如果認為是的朋友,可能是受系統預設設定的影響,一般我們指定一個表的主鍵,如果這個表之前沒有叢集索引,同時建立主鍵時候沒有強制指定使用非叢集索引,SQL會預設在此欄位上建立一個叢集索引,而主鍵都是唯一的,所以理所當然的認為建立叢集索引的欄位也需要唯一。
結論:叢集索引可以建立在任何一列你想建立的欄位上,這是從理論上講,實際情況並不能隨便指定,否則在效能上會是惡夢。
第二:為什麼叢集索引可以建立在任何一列上,如果此表沒有主鍵約束,即有可能存在重複行資料呢?
粗一看,這還真是和叢集索引的約束相背,但實際情況真可以建立叢集索引。
分析其原因是:如果未使用 UNIQUE 屬性建立叢集索引,資料庫引擎將向表自動添加一個四位元組 uniqueifier 列。必要時,資料庫引擎 將向行自動添加一個 uniqueifier 值,使每個鍵唯一。此列和列值供內部使用,使用者不能查看或訪問。
第三:是不是叢集索引就一定要比非叢集索引效能優呢?
如果想查詢學分在60-90之間的學生的學分以及姓名,在學分上建立叢集索引是否是最優的呢?
答:否。既然只輸出兩列,我們可以在學分以及學生姓名上建立聯合非叢集索引,此時的索引就形成了覆蓋索引,即索引所儲存的內容就是最終輸出的資料,這種索引在比以學分為叢集索引做查詢效能更好。
第四:在資料庫中通過什麼描述叢集索引與非叢集索引的?
索引是通過二叉樹的形式進行描述的,我們可以這樣區分聚集與非叢集索引的區別:叢集索引的分葉節點就是最終的資料節點,而非叢集索引的葉節仍然是索引節點,但它有一個指向最終資料的指標。
第五:在主鍵是建立叢集索引的表在資料插入上為什麼比主鍵上建立非叢集索引錶速度要慢?
有了上面第四點的認識,我們分析這個問題就有把握了,在有主鍵的表中插入資料行,由於有主鍵唯一性的約束,所以需要保證插入的資料沒有重複。我們來比較下主鍵為叢集索引和非叢集索引的尋找情況:叢集索引由於索引分葉節點就是資料頁,所以如果想檢查主鍵的唯一性,需要遍曆所有資料節點才行,但非叢集索引不同,由於非叢集索引上已經包含了主索引值,所以尋找主鍵唯一性,只需要遍曆所有的索引頁就行,這比遍曆所有資料行減少了不少IO消耗。這就是為什麼主鍵上建立非叢集索引比主鍵上建立叢集索引在插入資料時要快的真正原因。
好了,講這這些,不知道大家是否真的瞭解SQL的聚焦索引,我也是資料庫新手(從使用時間上來講也不算新了,哈哈),不專業,有什麼不對的地方,希望大家批評指正,下篇我會分析一些資料庫訪問索引的情況,有圖的情況下,也許看的更加明白。