mongodb mapreduce使用總結,mongodbmapreduce
文章來自本人個人部落格: mongodb mapreduce使用總結
大家都知道,mongodb是一個非關係型資料庫,也就是說,mongodb資料庫中的每張表是獨立存在的,表與表之間沒有任何依賴關係。在mongodb中,除了各種CRUD語句之外,還給我們提供了彙總和mapreduce統計的功能,這篇文章主要來跟大家聊聊mongodb的mapreduce的操作。
mapreduce的概念我就不贅述了,大家自己去查查吧。
在mongodb中,mapreduce的文法如下:
db.table.mapReduce( map, reduce, { query: query, out: out, //指定結果集以什麼方式儲存,選擇性參數包括: //replace:如果文檔(table)存在,則替換table, //merge:如果文檔中存在記錄,則覆蓋已存在的文檔記錄 //reduce: 如果文檔中存在相同key的記錄了,則先計算兩條記錄,然後覆蓋舊記錄 // {inline:1} 在記憶體中儲存記錄,不寫入磁碟(使用者資料量少的計算) sort: sort, limit: limit, finalize: function //這個function主要用來在存入out之前可以修改資料,function(key,values) { //return modifiedValues;} scope: document, //指定reduce可訪問的文檔範圍 jsMode:boolean //指定是否在map和ruduce之間立即將資料轉換為Bason格式,預設為false //如果想設定為true,則要記住官方我那當的注意事項: //You can only use jsMode for result sets with fewer than //500,000 distinct key arguments to the mapper’s emit()function. verbose:boolean //是否在結果集中包含timing資訊,預設是包含的 } )
在做mongodb的mapreduce時,要確保你的query是可以利用到索引的,不然在大資料量的統計下,將會托誇整個資料庫,如果確實沒辦法建索引,那麼就在結果集中判斷一些不合格資料,而去掉query。
mapreduce的文法其實很簡單,只不過這裡面有幾點需要注意一下:
1.在map中,mongodb是每1000條資料就reduce一次
2.在map中,如果你想統計一個資料之和,需要這樣寫:
emit(key:this.key,sum:0})
然後再在reduce裡需要將上一次的sum迭代累加起來,然後return {sum:sum};如果不這樣做,你計算出來的資料總是最後不足1000條資料之後統計出來的,而前面的資料就都丟失了。
3.如果能不用mapreduce,就不用,程式能夠統計的,就不要用mongodb頻繁統計。
4.mapreduce的結果集的資料格式是:{_id:key,value:{}},因此如果想直接使用這個表的話,最好再重新將資料格式整理一次,盡量將資料放在最上次,而不是再用value.xxx去查詢。
這裡附上統計我們網站的使用者發表內容的數量的mapreduce,僅供一種代碼格式的參考價值吧:
var db = connect('127.0.0.1:27017/test');db.aAccounttemp.drop();var map = function() { emit(this.accountId, {sum:0, reblogFlag:this.reblogFlag,dashboardFlag:this.dashboardFlag,dashboardType:this.dashboardType, photoNum:0,postNum:0,reblogNum:0,videoNum:0,videoShortNum:0, musicNum:0, questionNum:0,appNum:0, dialogNum:0});}var reduce = function(key,values) { var sum = 0; var photoNum = 0; var postNum = 0; var reblogNum = 0; var videoNum = 0; var videoShortNum = 0; var musicNum = 0; var questionNum = 0; var appNum = 0; var dialogNum = 0; for (var i = 0; i < values.length; i++) { var data = values[i]; var reblogFlag = data.reblogFlag; var dashboardFlag = data.dashboardFlag; var dashboardType = data.dashboardType; sum += data.sum; photoNum += data.photoNum; reblogNum += data.reblogNum; postNum += data.postNum; videoNum += data.videoNum; musicNum += data.musicNum; videoShortNum += data.videoShortNum; questionNum += data.questionNum; appNum += data.appNum; dialogNum += data.dialogNum; if(!reblogFlag) { if(dashboardFlag) { sum += 1; if(dashboardType == 10) { postNum += 1; } else if(dashboardType == 20) { photoNum += 1; } else if(dashboardType == 30) { videoNum += 1; } else if(dashboardType == 31) { videoShortNum += 1; } else if(dashboardType == 40) { musicNum += 1; } else if(dashboardType == 60) { questionNum += 1; } else if(dashboardType == 100) { appNum += 1; } else if(dashboardType == 91) { dialogNum += 1; } } else { if(dashboardType == 20) { photoNum += 1; } } } else if(reblogFlag && dashboardFlag) { reblogNum += 1; } } return {sum:NumberInt(sum),reblogNum:NumberInt(reblogNum),postNum:NumberInt(postNum),photoNum:NumberInt(photoNum), videoNum:NumberInt(videoNum),videoShortNum:NumberInt(videoShortNum), musicNum:NumberInt(musicNum), questionNum:NumberInt(questionNum),appNum:NumberInt(appNum),dialogNum:NumberInt(dialogNum)};};db.getMongo().setSlaveOk();db.dashboard_basic.mapReduce( map, reduce, { out:{merge:'aAccounttemp'} } );var results = db.aAccounttemp.find();//重新整理資料格式,存入正規表中while (results.hasNext()) { var obj = results.next(); var value = obj.value; var sum = NumberInt(value.sum); var reblogNum = NumberInt(value.reblogNum); var postNum = NumberInt(value.postNum); var photoNum = NumberInt(value.photoNum); var videoNum = NumberInt(value.videoNum); var videoShortNum = NumberInt(value.videoShortNum); var musicNum = NumberInt(value.musicNum); var questionNum = NumberInt(value.questionNum); var appNum = NumberInt(value.appNum); var dialogNum = NumberInt(value.dialogNum); var accountId = obj._id; db.dashboard_account_num.insert({accountId:accountId,sum:sum,reblogNum:reblogNum,postNum:postNum,photoNum:photoNum, videoShortNum:videoShortNum,videoNum:videoNum,musicNum:musicNum,questionNum:questionNum, appNum:appNum,dialogNum:dialogNum});}print('success insert total ' + results.count()+ ' datas');db.aAccounttemp.drop()quit()
誰懂mongodb的mapreduce 教我一下?
map:可以理解成需要填充的資料。在sql中,很像是後面的where條件所需要篩選的部分;
reduce:可以理解成需要顯示的欄位;
因為mapreduce的使用對於初學者來說,在理解上非常的困難。建議先從簡單的group方法入手進行學習;
另外一點,MapReduce的效能是非常低的,除非是做背景統計操作,否則一定不要用MapReduce或給予它的查詢作為前端的資料訪問方式。
mongodb的多表關聯哪種處理方式最優
遊戲日誌有使用者註冊、使用者登入等。使用mapreduce將使用者註冊資訊統計到一個集合user_register,將使用者登入資訊去重後放到另一個集合user_login,現在需要根據使用者名稱關聯這個兩個集合統計出一些資料。但查了很多資料沒有發現mongodb在這方面有很好的解決辦法,也想過使用mapreduce來解決,但根據這段時間我使用mapreduce的心得,感覺mapreduce只能處理一個集合,不能同時處理兩個集合。目前我想出的一個解決方案就是把這兩個集合中的資料都讀出來,然後使用程式碼處理。這種方式雖然能暫時解決問題,但肯定不是最優的。所以就冒昧給您發了這條資訊,看您能不能給一些合理的建議或方法,先在此謝過!!