如何在Mongodb集合中統計去重之後的資料

來源:互聯網
上載者:User
比方說我們有個Mongodb集合,

以這個簡單的集合為例,我們需要集合中包含多少不同的手機號碼,首先想到的應該就是使用distinct關鍵字,
db.tokencaller.distinct('Caller').length
如果想查看具體的而不同的手機號碼,那麼可以省略後面的length屬性,因為db.tokencaller.distinct('Caller')返回的是由所有去重手機號碼組成的數組。


但是,這種方式對於所有情況都是滿足的嘛。並不如此,如果要統計的集合記錄數較大,如千萬層級的,那麼在這麼統計的時候往往會報10044錯誤,提示資訊“exception : distinct too big , 16mb cap”. 後面我們將通過其他方式進行解決。
另外一種方式可以使用runCommand結合distinct進行使用,
db.runCommand({"distinct":"tokencaller","key":"Caller"})


可見在values上顯示了去重之後的手機號碼,,看結果是一個Json格式的,於是嘗試了下看看能不能取出values的大小,因為如果對於大資料量的集合來說,直接顯示去重的號碼明顯不合適,於是嘗試了下面的寫法:


發現是可以的,於是對大資料量使用了這種方式看看是否能取出結果,發現不存在length屬性,想了想應該跟mongodb的用戶端版本有關係吧,還待驗證。。。
兩種方式都不行,於是試了下mapReduce方式,具體如下:


然後我們會發現,他會將查詢出來的結果輸出到一個稱為“callerstatis”的結合,如下所示:


然後使用db.callerstatis.count()就可以知道有多少不同的手機號碼了。
使用這種方式,我們同樣在大資料量的集合上試了一下,可惜還是失敗了。。。。(桑心T_T),如果有誰有好的方法,麻煩也告訴我一下,小的感激不盡啊^_^
如果您對我的技術專欄文章感興趣並支援我繼續深入的寫下去,您可以掃碼支援我,畢竟英雄惜英雄嘛,不管多少我都真心的感謝您,畢竟都是對我勞動成果的認可,謝謝(^_^)。。。


相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.