mongodb mapreduce使用總結

來源:互聯網
上載者:User



   文章來自本人個人部落格: mongodb mapreduce使用總結 

   大家都知道,mongodb是一個非關係型資料庫,也就是說,mongodb資料庫中的每張表是獨立存在的,表與表之間沒有任何依賴關係。在mongodb中,除了各種CRUD語句之外,還給我們提供了彙總和mapreduce統計的功能,這篇文章主要來跟大家聊聊mongodb的mapreduce的操作。

    mapreduce的概念我就不贅述了,大家自己去查查吧。

    在mongodb中,mapreduce的文法如下:

    

db.table.mapReduce(        map,        reduce,        {            query: query,            out: out,    //指定結果集以什麼方式儲存,選擇性參數包括:                        //replace:如果文檔(table)存在,則替換table,                        //merge:如果文檔中存在記錄,則覆蓋已存在的文檔記錄                        //reduce: 如果文檔中存在相同key的記錄了,則先計算兩條記錄,然後覆蓋舊記錄                        // {inline:1}  在記憶體中儲存記錄,不寫入磁碟(使用者資料量少的計算)            sort: sort,            limit: limit,            finalize: function  //這個function主要用來在存入out之前可以修改資料,function(key,values) {                                 //return modifiedValues;}            scope: document,    //指定reduce可訪問的文檔範圍            jsMode:boolean      //指定是否在map和ruduce之間立即將資料轉換為Bason格式,預設為false                                //如果想設定為true,則要記住官方我那當的注意事項:                                //You can only use jsMode for result sets with fewer than                                //500,000 distinct key arguments to the mapper’s emit()function.            verbose:boolean     //是否在結果集中包含timing資訊,預設是包含的        }    )

    在做mongodb的mapreduce時,要確保你的query是可以利用到索引的,不然在大資料量的統計下,將會托誇整個資料庫,如果確實沒辦法建索引,那麼就在結果集中判斷一些不合格資料,而去掉query。

    mapreduce的文法其實很簡單,只不過這裡面有幾點需要注意一下:

        1.在map中,mongodb是每1000條資料就reduce一次

        2.在map中,如果你想統計一個資料之和,需要這樣寫:

            emit(key:this.key,sum:0})

            然後再在reduce裡需要將上一次的sum迭代累加起來,然後return {sum:sum};如果不這樣做,你計算出來的資料總是最後不足1000條資料之後統計出來的,而前面的資料就都丟失了。

       3.如果能不用mapreduce,就不用,程式能夠統計的,就不要用mongodb頻繁統計。

       4.mapreduce的結果集的資料格式是:{_id:key,value:{}},因此如果想直接使用這個表的話,最好再重新將資料格式整理一次,盡量將資料放在最上次,而不是再用value.xxx去查詢。

    這裡附上統計我們網站的使用者發表內容的數量的mapreduce,僅供一種代碼格式的參考價值吧:

    

var db = connect('127.0.0.1:27017/test');db.aAccounttemp.drop();var map = function() {    emit(this.accountId,         {sum:0,            reblogFlag:this.reblogFlag,dashboardFlag:this.dashboardFlag,dashboardType:this.dashboardType,            photoNum:0,postNum:0,reblogNum:0,videoNum:0,videoShortNum:0, musicNum:0,            questionNum:0,appNum:0, dialogNum:0});}var reduce = function(key,values) {    var sum = 0;    var photoNum = 0;    var postNum = 0;    var reblogNum = 0;    var videoNum = 0;    var videoShortNum = 0;    var musicNum = 0;    var questionNum = 0;    var appNum = 0;    var dialogNum = 0;    for (var i = 0; i < values.length; i++) {        var data = values[i];        var reblogFlag = data.reblogFlag;        var dashboardFlag = data.dashboardFlag;        var dashboardType = data.dashboardType;        sum += data.sum;        photoNum += data.photoNum;        reblogNum += data.reblogNum;        postNum += data.postNum;        videoNum += data.videoNum;        musicNum += data.musicNum;        videoShortNum += data.videoShortNum;        questionNum += data.questionNum;        appNum += data.appNum;        dialogNum += data.dialogNum;        if(!reblogFlag) {            if(dashboardFlag) {                sum += 1;                if(dashboardType == 10) {                    postNum += 1;                } else if(dashboardType == 20) {                    photoNum += 1;                } else if(dashboardType == 30) {                    videoNum += 1;                } else if(dashboardType == 31) {                    videoShortNum += 1;                } else if(dashboardType == 40) {                    musicNum += 1;                } else if(dashboardType == 60) {                    questionNum += 1;                } else if(dashboardType == 100) {                    appNum += 1;                } else if(dashboardType == 91) {                    dialogNum += 1;                }            } else {                if(dashboardType == 20) {                    photoNum += 1;                }            }        } else if(reblogFlag && dashboardFlag) {            reblogNum += 1;        }            }    return {sum:NumberInt(sum),reblogNum:NumberInt(reblogNum),postNum:NumberInt(postNum),photoNum:NumberInt(photoNum),        videoNum:NumberInt(videoNum),videoShortNum:NumberInt(videoShortNum),        musicNum:NumberInt(musicNum), questionNum:NumberInt(questionNum),appNum:NumberInt(appNum),dialogNum:NumberInt(dialogNum)};};db.getMongo().setSlaveOk();db.dashboard_basic.mapReduce(        map,        reduce,        {            out:{merge:'aAccounttemp'}        }    );var results = db.aAccounttemp.find();//重新整理資料格式,存入正規表中while (results.hasNext()) {    var obj = results.next();    var value = obj.value;    var sum = NumberInt(value.sum);    var reblogNum = NumberInt(value.reblogNum);    var postNum = NumberInt(value.postNum);    var photoNum = NumberInt(value.photoNum);    var videoNum = NumberInt(value.videoNum);    var videoShortNum = NumberInt(value.videoShortNum);    var musicNum  = NumberInt(value.musicNum);    var questionNum = NumberInt(value.questionNum);    var appNum = NumberInt(value.appNum);    var dialogNum = NumberInt(value.dialogNum);    var accountId = obj._id;    db.dashboard_account_num.insert({accountId:accountId,sum:sum,reblogNum:reblogNum,postNum:postNum,photoNum:photoNum,        videoShortNum:videoShortNum,videoNum:videoNum,musicNum:musicNum,questionNum:questionNum,        appNum:appNum,dialogNum:dialogNum});}print('success insert total ' + results.count()+ ' datas');db.aAccounttemp.drop()quit()  


相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.