標籤:優劣 複雜 log 寫入 sel 資料壓縮 connect 傳遞 buffer
前幾天面試被問到資料庫索引的問題,沒答上來。回來趕緊查了下,查的時候才發現關於資料庫的一些知識已經快忘的差不多了,然後順著不懂的名詞一直找下去,然而越查發現自己不懂的越多……
首先,建立索引的目的,就是為了提高資料庫的查詢效率,然而,這肯定得付出一些代價,一個是需要索引表本身需要佔部分空間,然後就是寫入操作的花銷要比沒索引的時候多了,因為要維護索引的資料結構。一般來說索引的實現是b樹和b+樹,就是比如我在一張表的某列上建立一個索引,資料庫系統就自動把這一列排序然後建立一個b+樹,以後每次尋找就順著b+樹尋找,而不用從第一行資料一直找到目標行,這會大大縮小尋找時間。
那為什麼不用同樣效率很高的排序樹或者升級版的紅/黑樹狀結構呢,因為這和儲存空間的存取原理有點關係。一般來說,索引本身也很大,不可能全部儲存在記憶體中,因此索引往往以索引檔案的形式儲存的磁碟上。這樣的話,索引尋找過程中就要產生磁碟I/O消耗,相對於記憶體存取,I/O存取的消耗要高几個數量級,所以評價一個資料結構作為索引的優劣最重要的指標就是在尋找過程中磁碟I/O操作次數的漸進複雜度。換句話說,索引的結構組織要盡量減少尋找過程中磁碟I/O的存取次數。b+樹的一個優勢就是每個節點可以容納很多組資料,也就是出度,通常超過100,因此樹高非常小,通常不超過3,所以訪問磁碟次數就少。紅/黑樹狀結構的話樹高相對來說就大些,所以訪問磁碟相對來說多點,當然還有其他的一些原因,具體在http://blog.jobbole.com/24006/有講。
然後mysql實現索引的一層是在MyISAM或者InnoDB。這兩個是個什麼東西呢。然後是時候上這張圖了:
(以下引自http://www.cnblogs.com/yjf512/archive/2012/02/06/2339496.html)
這事Mysqlserver的體繫結構,Mysql是由SQL介面,解析器,最佳化器,緩衝,儲存群組成的
1 Connectors指的是不同語言中與SQL的互動
2 Management Serveices & Utilities: 系統管理和控制工具
3 Connection Pool: 串連池。
管理緩衝使用者串連,線程處理等需要緩衝的需求
4 SQL Interface: SQL介面。
接受使用者的SQL命令,並且返回使用者需要查詢的結果。比如select from就是調用SQL Interface
5 Parser: 解析器。
SQL命令傳遞到解析器的時候會被解析器驗證和解析。解析器是由Lex和YACC實現的,是一個很長的指令碼。
主要功能:
a . 將SQL語句分解成資料結構,並將這個結構傳遞到後續步驟,以後SQL語句的傳遞和處理就是基於這個結構的
b. 如果在分解構成中遇到錯誤,那麼就說明這個sql語句是不合理的
6 Optimizer: 查詢最佳化工具。
SQL語句在查詢之前會使用查詢最佳化工具對查詢進行最佳化。他使用的是“選取-投影-聯結”策略進行查詢。
用一個例子就可以理解: select uid,name from user where gender = 1;
這個select 查詢先根據where 語句進行選取,而不是先將表全部查詢出來以後再進行gender過濾
這個select查詢先根據uid和name進行屬性投影,而不是將屬性全部取出以後再進行過濾
將這兩個查詢條件聯結起來產生最終查詢結果
7 Cache和Buffer: 查詢快取。
如果查詢快取有命中的查詢結果,查詢語句就可以直接去查詢快取中取資料。
這個緩衝機制是由一系列小緩衝組成的。比如表緩衝,記錄緩衝,key緩衝,許可權緩衝等
8 Engine :儲存引擎。
儲存引擎是MySql中具體的與檔案打交道的子系統。也是Mysql最具有特色的一個地方。
Mysql的儲存引擎是外掛程式式的。它根據MySql AB公司提供的檔案訪問層的一個抽象介面來定製一種檔案訪問機制(這種訪問機制就叫儲存引擎)
現在有很多種儲存引擎,各個儲存引擎的優勢各不一樣,最常用的MyISAM,InnoDB,BDB
預設下MySql是使用MyISAM引擎,它查詢速度快,有較好的索引最佳化和資料壓縮技術。但是它不支援事務。
InnoDB支援事務,並且提供行級的鎖定,應用也相當廣泛。
Mysql也支援自己定製儲存引擎,甚至一個庫中不同的表使用不同的儲存引擎,這些都是允許的。
mysql結構和索引原理