使用NOSQL的MongoDB時建立索引需要注意的幾點建議和Explain最佳化分析

來源:互聯網
上載者:User

使用NOSQL的MongoDB時建立索引需要注意的幾點建議和Explain最佳化分析
第一,MongoDB索引和MySQL索引非常相似並且對於MySQL的索引最佳化有很多也適用於MongoDB。
第二,更重要的是,這些索引的建議對你的應用提高也是有限的。
對於應用的最佳索引策略應該基於很多的重要因素。包含了你期望查詢的類型,
資料讀取與寫入的比率,甚至於你伺服器的空閑記憶體。意思就是,
需要對線上的產品做很多的測試剖析工作,才能調整出最佳的索引策略。
沒有什麼好的方法可以替代實際經驗的。

索引策略
 下面有些索引的基本法則
建立的索引要匹配查詢。如果你僅僅要查詢單個欄位。索引這個欄位即可。如

db.posts.find({ slug : 'state-of-mongodb-2010' })
這個例子中,唯一索引是最佳的
db.posts.ensureIndex({ slug: 1 }, {unique: true});
然而,一般都查詢多個鍵並且排序結果。這種情況,複合式索引是最佳的,例子如下
db.comments.find({ tags : 'mongodb'}).sort({ created_at : -1 });
建立的索引如下
db.comments.ensureIndex({tags : 1, created_at : -1});
要注意的是如果我們按照升序排序created_at。索引效率就低下了。
每個查詢一個索引。有的時候查詢多個鍵,需要多個索引。在MongoDB中,這麼做沒問題。
如果你有個查詢要匹配多個鍵,並且你想更有效地使用索引,請使用複合式索引。
要確定所有的索引都在RAM中。Shell中提供了一個查看索引大小的命令,如下:
db.comments.totalIndexSize();
65443
如果你的查詢有點遲緩,你應該查看下索引是否都存入到RAM中了。
一個執行個體,如果你運行在4GB的RAM機器並且有3GB的索引,那麼索引可能並不能全存在RAM中。
你需要添加RAM以及/或者校正實際的索引使用量。
要小心單鍵索引的低選擇性。假使你有個欄位叫做'status',就有兩個值new和processed。
如果在status上建立索引那麼這就是個低選擇性的索引。
意味著,查詢中沒有什麼優勢並且還佔大量的空間。
一個更好一點的策略,當然依賴具體查詢需求,可以建立複合式索引包括這個低選擇性的欄位。
舉例來說,你可以建立一個複合式索引在status和created_at欄位上。
另一個選擇,當然也依賴你的需求,可以分離collection, 一個狀態一個。
當然這些建議一定要進行測試,選擇最優的方案。
使用explain.MongoDB提供了一個explain命令, 用來查看查詢的過程並且可以查看是否使用縮影。explain可以在驅動中使用,也可以在SHELL中使用:
db.comments.find({ tags : 'mongodb'}).sort({ created_at : -1 }).explain();
返回了很多有用的資訊。包含了檢索的條數,消耗的毫秒數,最佳化器嘗試的索引以及最終所使用的索引。
如果你從來沒有使用過explain,請開始使用吧。
理解explain的輸出.explain輸出主要有三個欄位:
cursor: 遊標不是 BasicCursor就是 BtreeCursor. 第二種意味著使用了索引。
nscanned: 掃描document的行數。
n: 查詢返回的行數。你希望n的值和nsanned值接近。要避免做collection的掃描,
也就是訪問所有的document。
millis: 查詢完成的毫秒數。這個對於比較索引和非索引效能非常有用。要關注應用讀/寫( read/write) 比率

這個很重要,因為,添加索引意味著添加,更新,刪除操作變慢。

如果你的應用是偏向於讀取,使用索引是非常好的事情。

但是如果你的應用偏向於寫,那麼建立索引就要小心了。增加索引都很影響寫入的效能。

一般來說, 不要隨便添加索引。索引應該按照你的查詢來添加。

添加索引的理由總是很多的, 以及要進行大量的測試選擇合適的索引策略。

索引特性

複合式索引有許多特性要記住。

下面的例子都假想在 a, b, c上建立複合式索引。因此建立索引語句如下

db.foo.ensureIndex({a: 1, b: 1, c: 1})

 

1. 排序的列一定要在索引的最後。

好的:

find(a=1).sort(a)
find(a=1).sort(b)
find(a=1, b=2).sort(c)

不好的:

find(a=1).sort(c)
即使c是索引的最後一列,a列是所使用的最後一列,因此你只能通過a或者b列進行排序。2,3 ,4在1.6+已經不適用了。推薦使用1.6+以上版本。
 5. MongoDB's $ne 或者$nin 操作在索因傷是無效的。當要排除很少的documents。最好的方法就是在MongoDB查詢出結果,在服務端進行排除。

 

 

=============

MongoDB範圍查詢的索引最佳化http://blog.nosqlfan.com/html/4117.html

我們知道,MongoDB的索引是B-Tree結構的,和MySQL的索引非常類似。所以你應該聽過這樣的建議:建立索引的時候要考慮到sort操作,盡量把sort操作要用到的欄位放到你的索引後面。但是有的情況下,這樣做反而會使你的查詢效能更低。

問題

比如我們進行下面這樣的查詢:

db.collection.find({"country": "A"}).sort({"carsOwned": 1})

查詢條件是 {“country”: “A”},按 carsOwned 欄位的正序排序。所以索引就很好建了,直接建立 country , carsOwned 兩個欄位的聯合索引即可。像這樣:

db.collection.ensureIndex({"country": 1, "carsOwned": 1})

我們來看一個稍微複雜一點的查詢:

db.collection.find({"country": {"$in": ["A", "G"]}}).sort({"carsOwned": 1})

這回我們是要查詢 country 為 A 或者 G 的資料條目,結果同樣按 carsOwned 欄位排序。

如果我們還使用上面的索引,並且使用 explain() 分析一下這個查詢,就會發現在輸出中有一個“scanAndOrder” : true 的欄位,並且 nscanned 的值可能會比想象中的大很多,甚至指定了 limit 也沒什麼效果。

原因

這是什麼原因呢,我們先看下面這張圖:

如所未,左邊一個是按 {“country”: 1, “carsOwned”: 1} 的順序建立的索引。而右邊是按{“carsOwned”: 1, ”country”: 1} 順序建立的索引。

如果我們執行上面的查詢,通過左邊的索引,我們需要將 country 值為A的(左圖的左邊一支)所有子節點以及country 值為G的(左圖的右邊一支)所有子節點都取也來。然後再對取出來的這些資料按 carsOwned 值進行一次排序操作。

所以說上面 explain 輸出了一個 “scanAndOrder” : true 的提示,就是說這次查詢,是先進行了scan擷取到資料,再進行了獨立的排序操作的。

那如果我們使用右邊的索引來做查詢,結果就不太一樣了。我們沒有將排序欄位放在最後,而是放在了前面,相反把篩選欄位放在了後面。那這樣的結果就是:我們 會從值為1的節點開始遍曆(右圖的左邊一支),當發現有 country 值為 A 或 G 的,就直接放到結果集中。當完成指定數量(指定 limit 個數)的尋找後。我們就可以直接將結果返回了,因為這時候,所有的結果本身就是按 carsOwned 正序排列的。

對於上面的資料集,如果我們需要2條結果。我們通過左圖的索引需要掃描到4條記錄,然後對4條記錄進行排序才能返回結果。而右邊只需要我們掃描2條結果就能直接返回了(因為查詢的過程就是按需要的順序去遍曆索引的)。

所以,在有範圍查詢(包括$in, $gt, $lt 等等)的時候,其實刻意在後面追加排序索引通常是沒有效果的。因為在進行範圍查詢的過程中,我們得到的結果集本身並不是按追加的這個欄位來排的,還需要進 行一次額外的排序才行。而在這種情況下,可能反序建立索引(排序欄位在前、範圍查詢欄位在後)反而會是一個比較優的選擇。當然,是否更優也和具體的資料集 有關。

總結

總結一下,舉兩個栗子。

當查詢是:

db.test.find({a:1,b:2}).sort({c:1})

那麼直接建立 {a:1, b:1, c:1} 或者 {b:1, a:1, c:1} 的聯合索引即可。

如果查詢是:

db.test.find({a:1,b:{$in:[1,2]}}).sort({c:1})

那麼可能建立 {a:1, c:1, b:1} 的聯合索引會比較合適。當然,這裡只是提供了多一種思路,具體是否採用還是需要視你的資料情況而定。

來源:architects.dzone.com

=======================MongoDB與傳統資料庫的使用區別——批量插入與批量查詢 http://blog.sina.com.cn/s/blog_56545fd301013zav.html

我在百X知道上回答問題時經常遇到類似與這樣的問題:MongoDB有沒有像MySQL一樣的ODBC驅動?MongoDB能不能像MySQL一樣擷取欄位名稱或類型。

我的回答是:不行,因為MongoDB不是MySQL。這個回答顯得MongoDB太弱了,我的原意是你不能要求一個物理優秀教師幫你輔導數學,也許他能做到基本的教學,但他很難做到優秀數學教師那麼全面。

 

今天討論的問題是:批量插入和批量查詢

昨天在百X知道上有人問起MongoDB的批量插入如何寫,這個我還真沒用過,一方面MongoDB的速度足夠快讓我從來沒有想過去找這種方法,另一方面MongoDB的官網以及API裡也找不到這種方法。

那就帶來兩個問題。

問題1:這樣豈不是沒有速度更快的批量插入嗎?

這個問題毫無技術含量,MongoDB怎麼可能會比MySQL慢?這裡還是涉及到大家經常用到的傳統關係型資料庫和NoSQL的本質區別問題,NoSQL的每次操作都非常輕量級,小型化,除了資料的寫入外基本沒有多餘的操作。再舉個栗子:MongoDB就是放東西(資料)時把東西扔入相應的柜子(資料庫)即可,而MySQL則要保持與送東西人的溝通(雙向串連保持),東西的摺疊整理分格儲存(事務+有模式)。MySQL的批量插入就是減少了溝通以及分格等過程,而MongoDB本身就不存在這些過程,因此MongoDB就不存在批量插入這個概念了。結論就是,MongoDB的普通插入比MySQL的批量插入還要快,或者說MongoDB的普通插入就是批量插入。

問題2:把多個操作放入一個事務裡一起執行不就不能實現了?

這個問題更沒有技術含量了,MongoDB有事務嗎?還是那句,不要把NoSQL當關係型資料庫用。那豈不是MongoDB的資料完整性和資料安全性會很差?這個,還得再重複一遍,MongoDB的設計是為了處理大規模資料的,所以對資料完整性要求不是那麼嚴格。如果非要較真兒的話,MongoDB也可以處理這種情況,就是getLastError,它會犧牲效能以擷取資料操作是否正確,你可以在批量插入一批資料後調用一次這個方法,如果出錯,就把這批資料重新操作一遍,一批調用getLastError一次,既可保證效能,又可保證資料安全。

 

批量查詢

再來說一下批量查詢,這裡的批量對應於官網上的batch select的概念,可以理解為一次查詢一批資料。很多人在使用資料庫的時候會用:

Statement stmt = a.createStatement();

ResultSet rs = stmt.executeQuery(sql);

for(int i = 1; i < 10000; i++){

//read data from rs

}

這樣操作,會把資料庫中的資料全部讀入記憶體還是每條資料都去資料庫中讀一次?實際上兩者都不是,MySQL會把部分資料放入記憶體,如果這部分資料讀完了,那麼再讀入一部分。因為很久沒用MySQL了,我記得C++的驅動中確實有一個類是用於把全部資料都讀入記憶體的,不過這種方法很少人使用。

MongoDB的查詢是這樣的,你用Cursur去查詢,如果沒有設定batch size這個參數,那麼MongoDB預設會返回101條資料,等到這101條資料讀完了,也就是說使用者想讀第102條資料,那麼驅動會再次去MongoDB中擷取後面的一批資料,這批資料不是以個數記的,而是最大限制4M的大小,將這4M的資料返回供使用者繼續讀,讀完再申請4M。當然,你可以通過batch size來改變這一數值,如果設定了,那麼每次返回都會返回batch size條資料。


轉載請註明出處:http://blog.sina.com.cn/s/blog_56545fd301013zav.html ==============如何使用mongoose對一個100萬+的mongodb的表進行遍曆操作 http://cnodejs.org/topic/51508570604b3d512113f1b3 ===================== MongoDB最佳化的幾點原則 http://nosqldb.org/topic/50cac0c8ee680fee79001566 1.查詢最佳化
確認你的查詢是否充分利用到了索引,用explain命令查看一下查詢執行的情況,添加必要的索引,避免掃表操作。
2.搞清你的熱資料大小
可能你的資料集非常大,但是這並不那麼重要,重要的是你的熱資料集有多大,你經常訪問的資料有多大(包括經常訪問的資料和所有索引資料)。使用MongoDB,你最好保證你的熱資料在你機器的記憶體大小之下,保證記憶體能容納所有熱資料。
3.選擇正確的檔案系統
MongoDB的資料檔案是採用的預分配模式,並且在Replication裡面,Master和Replica Sets的非Arbiter節點都是會預先建立足夠的空檔案用以儲存動作記錄。這些檔案分配操作在一些檔案系統上可能會非常慢,導致進程被Block。所以我們應該選擇那些空間分配快速的檔案系統。這裡的結論是盡量不要用ext3,用ext4或者xfs。
4.選擇合適的硬碟
這裡的選擇包括了對磁碟RAID的選擇,也包括了磁碟與SSD的對比選擇。
5.盡量少用in的方式查詢,尤其是在shard上,他會讓你的查詢去被一個shand上跑一次,
如果逼不得已要用的話再每個shard上建索引。
最佳化in的方式是把in分解成一個一個的單一查詢。速度會提高40-50倍
6.合理設計sharding key
increamenting sharding key(增量sharding-key)適合於可劃分範圍的欄位,比如integer、float、date類型的,查詢時比較快
random sharding key(隨機sharding-key)適用於寫操作頻繁的情境,而這種情況下如果在一個shard上進行會使得這個shard負載比其他高,不夠均衡,故而希望能hash查詢key,將寫分布在多個shard上進行
考慮複合key作為sharding key, 總的原則是查詢快,盡量減少跨shard查詢,balance均衡次數少。
mongodb預設是單條記錄16M,尤其在使用GFS的時候,一定要注意shrading-key的設計。
不合理的sharding-key會出現,多個文檔,在一個chunks上,同時,因為GFS中存貯的往往是大檔案,導致mongodb在做balance的時候無法通過sharding-key來把這多個文檔分開到不同的shard上,
這時候mongodb會不斷報錯
[conn27669] Uncaught std::exception: St9bad_alloc, terminating。最後導致mongodb倒掉。
解決辦法:加大chunks大小(治標),設計合理的sharding-key(治本)。
7.mongodb可以通過profile來監控資料,進行最佳化。
查看當前是否開啟profile功能
用命令db.getProfilingLevel() 返回level等級,值為0|1|2,分別代表意思:0代表關閉,1代表記錄慢命令,2代表全部
開啟profile功能命令為
db.setProfilingLevel(level); #level等級,值同上
level為1的時候,慢命令預設值為100ms,更改為db.setProfilingLevel(level,slowms)如db.setProfilingLevel(1,50)這樣就更改為50毫秒

通過db.system.profile.find() 查看當前的監控日誌.

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.