Redis 基數統計:HyperLogLog 小記憶體大用處

來源:互聯網
上載者:User

我們一直都知道,redis幾大常用資料結構,字串、散列、列表、集合、有序集合。其實後來Redis做了很多補充,其中之一就是HyperLogLog,另外的還有GEO(地理位置),是3.2版本加的。

這裡我們就來簡單介紹下HyperLogLog結構。

先說用處:這個結構可以非常省記憶體的去統計各種計數,比如註冊ip數、每日訪問IP數、頁面即時UV(PV肯定字串就搞定了)、線上使用者數等。

這裡看到所有的用處都是xxx數,所以這個資料結構的特點就是,可以比較準確的估算出你要統計的數量,但是卻無法知道統計的詳細內容。比如統計每日訪問IP數,可以擷取當時訪問過的IP總數量,但是沒法知道這些IP都是什麼。

有得必有失,當然你要統計上面提到的那些內容,可以用集合來處理,這樣可以知道數量,也能獲得所有的詳細列表。但是一個大型的網站,每天IP比如有100萬個呢,我們粗算一個IP消耗15位元組,那麼100萬個IP就是15M,如果1千萬,就是150M。

再來看看我們的HyperLogLog,在Redis中每個鍵佔用的內容都是12K,理論儲存近似接近2^64個值,不管儲存的內容是什麼。12K,知道這個資料結構的作用了吧。這也是為什麼他不能知道裡面的詳細內容了。這是一個基於基數估算的演算法,只能比較準確的估算出基數,可以使用少量固定的記憶體去儲存並識別集合中的唯一元素。而且這個估算的基數並不一定準確,是一個帶有 0.81% 標準錯誤(standard error)的近似值。

HyperLogLog結構,在範圍允許的情況下無論多少值,都只會佔用12K記憶體。

這樣比如我們把每日IP記錄下來,假設每天有一億個IP訪問,如果使用集合的話,一天的記憶體使用量就是1.5G,假設我們儲存一個月的記錄,就需要45G容量。但是使用HyperLogLog的話,一天12K,一個月360K。如果我們不需要知道IP具體資訊的話,完全可以把這些記錄留在記憶體一年、或者不刪都行。如果需要,我們也會把所有的IP訪問記錄通過其他途徑儲存起來。把每天的資訊儲存起來,我們可以計算每月IP總數(MERGE),一年的IP總數等(去重)。

下面介紹一下HyperLogLog的命令,其實他和集合的命令比較像,只是命令少,不能擷取列表而已。另外這個資料結構需要2.8.9及以上的版本才能使用哦~ PFADD

在執行這個命令之後,HyperLogLog內部的結構會被更新,並有所反饋,如果執行完之後HyperLogLog內部的基數估算髮生了變化,那麼就會返回1,否則(認為已經存在)就返回0。
這個命令還有一個比較神器的就是可以只有鍵,沒有值,這樣的意思就是只是建立空的鍵,不放值。
如果這個鍵存在,不做任何事情,返回0;不存在的話就建立,並返回1。

這個命令的時間複雜度為O(1),所以就放心用吧~

命令例子:

redis> PFADD  ip:20160929  "1.1.1.1"  "2.2.2.2"  "3.3.3.3"(integer) 1redis> PFADD  ip:20160929 "2.2.2.2"  "4.4.4.4"  "5.5.5.5"  # 存在就只加新的(integer) 1redis> PFCOUNT  ip:20160929  # 元素估計數量沒有變化(integer) 5redis> PFADD  ip:20160929 "2.2.2.2"  # 存在就不會增加(integer) 0

其實我們發現在少的時候還是挺準的,哈哈。 PFCOUNT

其實在上面的學習中我們已經用過這個了,這裡再來介紹下。

當命令作用於單個鍵的時候,返回這個鍵的基數估算值。如果鍵不存在,則返回0。
當作用於多個鍵的時候,返回這些鍵的並集估算值。類似於把這些鍵都合并了之後,在調用這個命令輸出。

這個命令在作用於單個值的時候,時間複雜度為O(1),並且具有非常低的平均常數時間;在作用於N個值的時候,時間複雜度為O(N),這個命令的常數複雜度會比較低些。

命令例子:

redis> PFADD  ip:20160929  "1.1.1.1"  "2.2.2.2"  "3.3.3.3"(integer) 1redis> PFCOUNT  ip:20160929(integer) 3redis> PFADD  ip:20160928  "1.1.1.1"  "4.4.4.4"  "5.5.5.5"(integer) 1redis> PFCOUNT  ip:20160928  ip:20160929(integer) 5
PFMERGE

合并(merge)多個HyperLogLog為一個HyperLogLog。其實這個也很好理解,而合并後的估算基數也近似於所有HyperLogLog估算基數的並集。

這個命令的第一個參數為目標鍵,剩下的參數為要合并的HyperLogLog。命令執行時,如果目標鍵不存在,則建立後再執行合并。

這個命令的時間複雜度為O(N),其中N為要合并的HyperLogLog的個數。不過這個命令的常數時間複雜度比較高。

命令例子:

redis> PFADD  ip:20160929  "1.1.1.1"  "2.2.2.2"  "3.3.3.3"(integer) 1redis> PFADD  ip:20160928  "1.1.1.1"  "4.4.4.4"  "5.5.5.5"(integer) 1redis> PFMERGE ip:201609   ip:20160928   ip:20160929OKredis> PFCOUNT  ip:201609(integer) 5
相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.