MongoDB:MapReduce基礎及執行個體

來源:互聯網
上載者:User

標籤:

背景

     MapReduce是個非常靈活和強大的資料彙總工具。它的好處是可以把一個彙總任務分解為多個小的任務,分配到多伺服器上平行處理。

MongoDB也提供了MapReduce,當然查詢語肯定是JavaScript。MongoDB中的MapReduce主要有以下幾階段:

   1. Map:把一個操作Map到集合中的每一個文檔

   2. Shuffle: 根據Key分組對文檔,並且為每個不同的Key產生一系列(>=1個)的值表(List of values)。

   3. Reduce: 處理值表中的元素,直到值表中只有一個元素。然後將值表返回到Shuffle過程,迴圈處理,直到每個Key只對應一個值表,並且此值表中只有一個元素,這就是MR的結果。

   4. Finalize:此步驟不是必須的。在得到MR最終結果後,再進行一些資料“修剪”性質的處理。

MongoDB中使用emit函數向MapReduce提供Key/Value對。

Reduce函數接受兩個參數:Key,emits. Key即為emit函數中的Key。 emits是一個數組,它的元素就是emit函數提供的Value。

Reduce函數的返回結果必須要能被Map或者Reduce重複使用,所以返回結果必須與emits中元素結構一致。

Map或者Reduce函數中的this關鍵字,代表當前被Mapping文檔。

執行個體

  測試資料: 這個集合是三個使用者購買的產品和產品價格的資料。

CodeCodefor(var i=0;i<1000;i++){ var rID=Math.floor(Math.random()*10); var priceparseFloat((Math.random()*10).toFixed(2)); if(rID<4){     db.test.insert({"user":"Joe","sku":rID,"price":price}); } else if(rID>=4 && rID<7){    db.test.insert({"user":"Josh","sku":rID,"price":price}); } else {  db.test.insert({"user":"Ken","sku":rID,"price":price});      } }

  1. 每個使用者各購買了多少個產品?(單一Key做MR)

Code//SQL實現select user,count(sku) from testgroup by user//MapReduce實現map=function (){ emit(this.user,{count:1})}reduce=function (key,values){ var cnt=0;   values.forEach(function(val){ cnt+=val.count;});  return {"count":cnt};}//MR結果存到集合mr1db.test.mapReduce(map,reduce,{out:"mr1"})//查看MR之後結果> db.mr1.find(){ "_id" : "Joe", "value" : { "count" : 416 } }{ "_id" : "Josh", "value" : { "count" : 287 } }{ "_id" : "Ken", "value" : { "count" : 297 } }

2. 每個使用者不同的產品購買了多少個?(複合Key做MR)

Code//SQL實現select user,sku,count(*) from testgroup by user,sku//MapReduce實現map=function (){ emit({user:this.user,sku:this.sku},{count:1})}reduce=function (key,values){ var cnt=0;   values.forEach(function(val){ cnt+=val.count;});  return {"count":cnt};}db.test.mapReduce(map,reduce,{out:"mr2"})> db.mr2.find(){ "_id" : { "user" : "Joe", "sku" : 0 }, "value" : { "count" : 103 } }{ "_id" : { "user" : "Joe", "sku" : 1 }, "value" : { "count" : 106 } }{ "_id" : { "user" : "Joe", "sku" : 2 }, "value" : { "count" : 102 } }{ "_id" : { "user" : "Joe", "sku" : 3 }, "value" : { "count" : 105 } }{ "_id" : { "user" : "Josh", "sku" : 4 }, "value" : { "count" : 87 } }{ "_id" : { "user" : "Josh", "sku" : 5 }, "value" : { "count" : 107 } }{ "_id" : { "user" : "Josh", "sku" : 6 }, "value" : { "count" : 93 } }{ "_id" : { "user" : "Ken", "sku" : 7 }, "value" : { "count" : 98 } }{ "_id" : { "user" : "Ken", "sku" : 8 }, "value" : { "count" : 83 } }{ "_id" : { "user" : "Ken", "sku" : 9 }, "value" : { "count" : 116 } }

3. 每個使用者購買的產品數量,總金額是多少?(複合Reduce結果處理)

Code//SQL實現select user,count(sku),sum(price) from testgroup by user//MapReduce實現map=function (){  emit(this.user,{amount:this.price,count:1})}reduce=function (key,values){ var res={amount:0,count:0}values.forEach(function(val){     res.amount+=val.amount;    res.count+=val.count});  return res;}db.test.mapReduce(map,reduce,{out:"mr3"})> db.mr3.find(){ "_id" : "Joe", "value" : { "amount" : 2053.8899999999994, "count" : 395 } }{ "_id" : "Josh", "value" : { "amount" : 1409.2600000000002, "count" : 292 } }{ "_id" : "Ken", "value" : { "amount" : 1547.7700000000002, "count" : 313 } }

4. 在3中返回的amount的float精度需要改成兩位小數,還需要得到商品的平均價格。(使用Finalize處理reduce結果集)

Code//SQL實現select user,cast(sum(price) as   decimal(10,   2)) as amount,count(sku) as [count],cast((sum(price)/count(sku))  as decimal(10,2)) as avgPricefrom testgroup by user//MapReduce實現map=function (){  emit(this.user,{amount:this.price,count:1,avgPrice:0})}reduce=function (key,values){ var res={amount:0,count:0,avgPrice:0}values.forEach(function(val){     res.amount+=val.amount;    res.count+=val.count});  return res;}finalizeFun=function (key,reduceResult){ reduceResult.amount=(reduceResult.amount).toFixed(2); reduceResult.avgPrice=(reduceResult.amount/reduceResult.count).toFixed(2); return reduceResult;} db.test.mapReduce(map,reduce,{out:"mr4",finalize:finalizeFun})> db.mr4.find(){ "_id" : "Joe", "value" : { "amount" : "2053.89", "count" : 395, "avgPrice" : "5.20" } }{ "_id" : "Josh", "value" : { "amount" : "1409.26", "count" : 292, "avgPrice" : "4.83" } }{ "_id" : "Ken", "value" : { "amount" : "1547.77", "count" : 313, "avgPrice" : "4.94" } }

5. 統計單價大於6的SKU,每個使用者的購買數量.(篩選資料子集做MR)

  這個比較簡單了,只需要將1.中調用MR時加上篩選查詢即可,其它不變.

Codedb.test.mapReduce(map,reduce,{query:{price:{"$gt":6}},out:"mr5"})

總結

   MongoDB中的MR工具非常強大,文中的例子只是基礎執行個體.結合Sharding後,多伺服器並行做資料集合處理,才能真正顯現其能力.

   如果後續有時間,希望能總結和分享更多關於MongoDB,關於SQL Server的東西.

MongoDB:MapReduce基礎及執行個體

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.