bloom filter 詳解[轉]

來源:互聯網
上載者:User

標籤:

Bloom Filter概念和原理

焦萌 2007年1月27日

 

Bloom Filter是一種空間效率很高的隨機資料結構,它利用位元組很簡潔地表示一個集合,並能判斷一個元素是否屬於這個集合。Bloom Filter的這種高效是有一定代價的:在判斷一個元素是否屬於某個集合時,有可能會把不屬於這個集合的元素誤認為屬於這個集合(false positive)。因此,Bloom Filter不適合那些“零錯誤”的應用場合。而在能容忍低錯誤率的應用場合下,Bloom Filter通過極少的錯誤換取了儲存空間的極大節省。

 集合表示和元素查詢

下面我們具體來看Bloom Filter是如何用位元組表示集合的。初始狀態時,Bloom Filter是一個包含m位的位元組,每一位都置為0。

 

 

為了表達S={x1, x2,…,xn}這樣一個n個元素的集合,Bloom Filter使用k個相互獨立的雜湊函數(Hash Function),它們分別將集合中的每個元素映射到{1,…,m}的範圍中。對任意一個元素x,第i個雜湊函數映射的位置hi(x)就會被置為1(1≤i≤k)。注意,如果一個位置多次被置為1,那麼只有第一次會起作用,後面幾次將沒有任何效果。在中,k=3,且有兩個雜湊函數選中同一個位置(從左邊數第五位)。   

 

 

 

在判斷y是否屬於這個集合時,我們對y應用k次雜湊函數,如果所有hi(y)的位置都是1(1≤i≤k),那麼我們就認為y是集合中的元素,否則就認為y不是集合中的元素。中y1就不是集合中的元素。y2或者屬於這個集合,或者剛好是一個false positive。

 

 

 錯誤率估計

前面我們已經提到了,Bloom Filter在判斷一個元素是否屬於它表示的集合時會有一定的錯誤率(false positive rate),下面我們就來估計錯誤率的大小。在估計之前為了簡化模型,我們假設kn<m且各個雜湊函數是完全隨機的。當集合S={x1, x2,…,xn}的所有元素都被k個雜湊函數映射到m位的位元組中時,這個位元組中某一位還是0的機率是:

 

 

其中1/m表示任意一個雜湊函數選中這一位的機率(前提是雜湊函數是完全隨機的),(1-1/m)表示雜湊一次沒有選中這一位的機率。要把S完全映射到位元組中,需要做kn次雜湊。某一位還是0意味著kn次雜湊都沒有選中它,因此這個機率就是(1-1/m)的kn次方。令p = e-kn/m是為了簡化運算,這裡用到了計算e時常用的近似:

 

 

 

令ρ為位元組中0的比例,則ρ的數學期望E(ρ)= p’。在ρ已知的情況下,要求的錯誤率(false positive rate)為:

 

 

(1-ρ)為位元組中1的比例,(1-ρ)k就表示k次雜湊都剛好選中1的地區,即false positive rate。上式中第二步近似在前面已經提到了,現在來看第一步近似。p’只是ρ的數學期望,在實際中ρ的值有可能偏離它的數學期望值。M. Mitzenmacher已經證明[2] ,位元組中0的比例非常集中地分布在它的數學期望值的附近。因此,第一步的近似得以成立。分別將p和p’代入上式中,得:

   

 

   

 

 

 

相比p’和f’,使用p和f通常在分析中更為方便。

 最優的雜湊函數個數

既然Bloom Filter要靠多個雜湊函數將集合映射到位元組中,那麼應該選擇幾個雜湊函數才能使元素查詢時的錯誤率降到最低呢?這裡有兩個互斥的理由:如果雜湊函數的個數多,那麼在對一個不屬於集合的元素進行查詢時得到0的機率就大;但另一方面,如果雜湊函數的個數少,那麼位元組中的0就多。為了得到最優的雜湊函數個數,我們需要根據上一小節中的錯誤率公式進行計算。

 

先用p和f進行計算。注意到f = exp(k ln(1 − e−kn/m)),我們令g = k ln(1 − e−kn/m),只要讓g取到最小,f自然也取到最小。由於p = e-kn/m,我們可以將g寫成

 

 

根據對稱性法則可以很容易看出當p = 1/2,也就是k = ln2· (m/n)時,g取得最小值。在這種情況下,最小錯誤率f等於(1/2)k ≈ (0.6185)m/n。另外,注意到p是位元組中某一位仍是0的機率,所以p = 1/2對應著位元組中0和1各一半。換句話說,要想保持錯誤率低,最好讓位元組有一半還空著。

 

需要強調的一點是,p = 1/2時錯誤率最小這個結果並不依賴於近似值p和f。同樣對於f’ = exp(k ln(1 − (1 − 1/m)kn)),g’ = k ln(1 − (1 − 1/m)kn),p’ = (1 − 1/m)kn,我們可以將g’寫成

 

 

同樣根據對稱性法則可以得到當p’ = 1/2時,g’取得最小值。

 位元組的大小

下面我們來看看,在不超過一定錯誤率的情況下,Bloom Filter至少需要多少位才能表示全集中任意n個元素的集合。假設全集中共有u個元素,允許的最大錯誤率為?,下面我們來求位元組的位元m。

 

假設X為全集中任取n個元素的集合,F(X)是表示X的位元組。那麼對於集合X中任意一個元素x,在s = F(X)中查詢x都能得到肯定的結果,即s能夠接受x。顯然,由於Bloom Filter引入了錯誤,s能夠接受的不僅僅是X中的元素,它還能夠? (u - n)個false positive。因此,對於一個確定的位元組來說,它能夠接受總共n + ? (u - n)個元素。在n + ? (u - n)個元素中,s真正表示的只有其中n個,所以一個確定的位元組可以表示

 

 

個集合。m位的位元組共有2m個不同的組合,進而可以推出,m位的位元組可以表示

   

 

 

個集合。全集中n個元素的集合總共有

   

 

 

個,因此要讓m位的位元組能夠表示所有n個元素的集合,必須有

   

 

 

即:

   

 

 

上式中的近似前提是n和?u相比很小,這也是實際情況中常常發生的。根據上式,我們得出結論:在錯誤率不大於?的情況下,m至少要等於n log2(1/?)才能表示任意n個元素的集合。

 

 

 

上一小節中我們曾算出當k = ln2· (m/n)時錯誤率f最小,這時f = (1/2)k = (1/2)mln2 / n。現在令f≤?,可以推出

 

 

這個結果比前面我們算得的下界n log2(1/?)大了log2 e ≈ 1.44倍。這說明在雜湊函數的個數取到最優時,要讓錯誤率不超過?,m至少需要取到最小值的1.44倍。

 總結

在電腦科學中,我們常常會碰到時間換空間或者空間換時間的情況,即為了達到某一個方面的最優而犧牲另一個方面。Bloom Filter在時間空間這兩個因素之外又引入了另一個因素:錯誤率。在使用Bloom Filter判斷一個元素是否屬於某個集合時,會有一定的錯誤率。也就是說,有可能把不屬於這個集合的元素誤認為屬於這個集合(False Positive),但不會把屬於這個集合的元素誤認為不屬於這個集合(False Negative)。在增加了錯誤率這個因素之後,Bloom Filter通過允許少量的錯誤來節省大量的儲存空間。

 

自從Burton Bloom在70年代提出Bloom Filter之後,Bloom Filter就被廣泛用於拼字檢查和資料庫系統中。近一二十年,伴隨著網路的普及和發展,Bloom Filter在網路領域獲得了新生,各種Bloom Filter變種和新的應用不斷出現。可以預見,隨著網路應用的不斷深入,新的變種和應用將會繼續出現,Bloom Filter必將獲得更大的發展。

 參考資料

[1] A. Broder and M. Mitzenmacher. Network applications of bloom filters: A survey. Internet Mathematics, 1(4):485–509, 2005.

[2] M. Mitzenmacher. Compressed Bloom Filters. IEEE/ACM Transactions on Networking 10:5 (2002), 604—612.

[3] www.cs.jhu.edu/~fabian/courses/CS600.624/slides/bloomslides.pdf

[4] http://166.111.248.20/seminar/2006_11_23/hash_2_yaxuan.ppt

bloom filter 詳解[轉]

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.