sqlite 最佳化筆記

來源:互聯網
上載者:User
SQLite 最佳化筆記

2010/04/30 17:16

最近在折騰一個幾十 G 的 SQLite 資料庫,裡邊有十來個表,大都有數千萬條資料,結果是一個 SELECT COUNT(*) 都一個小時沒動靜……於是翻了些資料最佳化了一下,以下是流水賬:

1、將資料庫從 HDD 轉移到 SSD 。由於 SSD 的 IOPS 是 HDD 的數十倍,某些查詢可以有十倍以上的提升。不過 SSD 空間實在有限,如果能把索引獨立存放就好了……

從 HDD 到 SSD ,SELECT COUNT(*) 所花的時間:

~ 5000 s   ⇒   546 s

2、VACUUM 。這個命令用於刪除那些留給插入更新的多餘空間,據說還能清理磁碟片段,可以提升兩倍左右的檢索速度,不過相當花時間占空間。SQLite 要先在臨時檔案夾建立和資料庫相當大小的檔案,再在資料庫檔案夾建立和資料庫相當大小的 journal 檔案。也就是說資料庫所在磁碟機和臨時檔案夾都要保證足夠的空間。可以設定系統 TMP 或者用 PRAGMA temp_store_directory 改變臨時檔案夾得位置,也可以用 PRAGMA journal_size_limit 設定 journal 檔案的上限。官網上說 VACUUM 的速度是 2M/S ,我試了下就算在 HDD 上至少也有 4M/S ,SSD 上可以達到 10M/S 以上,這個時間也和資料庫的整齊程度有關,不過對於大資料庫而言還是很慢就是了。

VACUUM 前後,SELECT COUNT(*) 所花的時間:

546 s   ⇒   205 s

3、設定 page_size 。這個情況似乎比較複雜,對於小表而言不同的 page_size 幾乎沒有什麼區別,但是大表可以有五倍的差距。預設的編譯參數下 SQLite 的 page_size 取值可以是 512 、1024 、2048 、4096 、8192 、16384 和 32768 ,預設是 1024 ,這和 Linux 的 cluster size 一致,而 NTFS 是 4K ,有人說設定為 4K 可以提高效能,不過我試了下 4K 差不多是最差(大部分情況下 2K 更差),倒是 8K 開始有大提升,16K 和 32K 差的不是很遠。一般而言 page_size 越大速度越快,系統負擔越重,不過也有很多其它因素的影響,比如不同的 page_size 下資料庫檔案的大小有差別,大 page_size 不利於記憶體緩衝某些資料以備重複查詢等。

page_size 從 1024 改為 32768 ,SELECT COUNT(*) 所花的時間:

205 s   ⇒   45 s

4、cache_size 按理說也是有影響的,不過我嘗試了不同的 cache_size 幾乎沒有區別,是記憶體不夠的原因?

5、對於一般的資料庫,主鍵比索引要快,但是 SQLite 似乎是個例外,因為主鍵似乎是和資料存在一起的,讀取時會浪費很多時間在無用的資料上,尤其當表中存在巨大的 TEXT 資料時非常明顯;而索引是單獨存放的,反而比主鍵要快,如果表中一行資料的容量很大,那麼甚至可能有一百倍的差距。

主鍵 vs 索引,SELECT COUNT(*) 所花的時間:

45 s   ⇒   1 s

下面這個程式比較了不同因素的影響。其中建立三個表,並存入數量相同的資料。表 a 和表 b 的結構是完全相同的,只不過表 a 插入的是短字串,而表 b 插入的是大段文字;表 c 和表 b 插入的資料是完全相同的,只不過表 b 有主鍵,而 c 只有索引——猜猜哪個更快?http://blog.ieph.net/archives/316

 

 

關於索引:

在進行多個表聯集查詢的時候,使用索引可以顯著的提高速度,剛才用SQLite做了一下測試。

建立三個表:
create table t1 
(id integer primary key,
num integer not null,
word1 text not null,
word2 text not null);
create table t2 
(id integer primary key,
num integer not null,
word1 text not null,
word2 text not null);
create table t3 
(id integer primary key,
num integer not null,
word1 text not null,
word2 text not null);



建立若干索引:
t1表:在num,word1,word2上有複合索引
t2表:在num,word1,word2上各有一個索引
t3表:在word1上有一個索引
create index idxT1 on t1(num,word1,word2);
create index idxT2Num on t2(num);
create index idxT2Word1 on t2(word1);
create index idxT2Word2 on t2(word2);
create index idxT3Word1 on t2(word1);



向三個表中各插入10000行資料,其中num項為隨機數字,word1和word2中是英文單詞,三個表中對應的num,word1和word2列中都包含有部分相同值,但是它們在表中出現的順序不同。

速度測試結果:
1) select count(*) from t1,t3 where t1.word2=t3.word2; 
很慢(t3.word2上沒有索引)
2) select count(*) from t3,t1 where t1.word2=t3.word2; 
很慢(t1.word2上沒有獨立索引)
3) select count(*) from t1,t2 where t1.word2=t2.word2;
很快(t2.word2上有索引)
4) select count(*) from t2,t1 where t1.word2=t2.word2; 
很慢(t1.word2上沒有獨立索引)
5) select count(*) from t1,t2 where t1.num=t2.num;
很快(t2.num上有索引)
6) select count(*) from t2,t1 where t1.num=t2.num; 
很快(t1的複合索引中,第一個列是num)
7) select count(*) from t1,t3 where t1.num=t3.num; 
很慢(t3.num上沒有索引)
8) select count(*) from t3,t1 where t1.num=t3.num; 
很快(t1的複合索引中,第一個列是num)



結論:在from子句後面的兩個表中,如果第2個表中要查詢的列裡面帶有索引,這個查詢的速度就快,反之就慢。比如第三個查詢,from後面的第2個表是 t2,t2在word2上有索引,所以這個查詢就快,當輸入SQL命令並斷行符號後,查詢結果就立即顯示出來了,但是如果使用第4個查詢命令(即把t1和t2 的位置互換),查詢起來卻用了1分零6秒。

可見索引的建立對於提高資料庫查詢的速度是非常重要的。

更多關於SQLite查詢最佳化的知識可以參考《Chris Newman》寫的《SQLite》一書的第四章:《Query Optimization》 

 

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.