Golang 最佳化之路——bitset

來源:互聯網
上載者:User
這是一個建立於 的文章,其中的資訊可能已經有所發展或是發生改變。

寫在前面

開發過程中會經常處理集合這種資料結構,簡單點的處理方法都是使用內建的map實現。但是如果要應對大量資料,使用map佔用記憶體大的問題就會凸顯出來。記憶體佔用高又會帶來一些列的問題,這裡就不展開說了。還有就是,大量資料存放於map,尋找的雜湊演算法消耗也會很高。這時就該考慮對資料結構進行最佳化。之前瀏覽awesome-go時發現了一種叫bitset的資料結構,今天就介紹一下它。

bitset 簡介

首先這是一個資料結構。從名字set不難發現,這是一個集合的資料結構。bit的含義也比較好懂,通過set是通過bit實現的。如果你需要一個集合,正好集合內的元素都是正整數,那麼用這個就沒錯了。

Example

import "github.com/willf/bitset"var b bitset.BitSet // 定義一個BitSet對象b.Set(10).Set(11) // 給這個set新增兩個值10和11if b.Test(1000) { // 查看set中是否有1000這個值(我覺得Test這個名字起得是真差勁,為啥不叫Exist)b.Clear(1000) // 情況set}for i,e := v.NextSet(0); e; i,e = v.NextSet(i + 1) { // 遍曆整個Set   fmt.Println("The following bit is set:",i);}if B.Intersection(bitset.New(100).Set(10)).Count() > 1 { // set求交集fmt.Println("Intersection works.")}

這個包功能已經非常完善了,完整的文檔可以參考它的godoc。我使用這些包,除了看重基礎功能(對於集合,就是增刪改查這些),還有就是得方便調試。bitset內部儲存數字都是按位存的,如果調試的時候是把bitset的內部資料給我看,我也是看不懂的,還好這個包提供了String()方法,可以把我設定的資料已字串的形式返回,棒棒噠。

實現原理

研究一下實現原理才是我的Style。大概說一下原理。正整數集合可以都放到一個大的整數裡面,用位來表示數字。比如1001就可以表示0和2這兩個數字。用一個bit代替了一個int,可以大大降低記憶體的佔用。但是一個整數最大也就64位,也就是說最大表示的數字就是64了,所以可以通過多個int拼接的形式來表示大整數。

bitset的內部資料結構,很親切有木有:

type BitSet struct {length uint // set的大小set    []uint64 // 這個就會被用來表示一個大整數}

通過下面的測試代碼對於內部實現一探究竟:

var b bitset.BitSet // 定義一個BitSet對象fmt.Println(b.Bytes())b.Set(0)fmt.Println(b.Bytes(),0)b.Set(10) // 給這個set新增兩個值10fmt.Println(b.Bytes(),0,10)b.Set(64)fmt.Println(b.Bytes(),0,10,64)if b.Test(1000) { // 查看set中是否有1000這個值(我覺得Test這個名字起得是真差勁,為啥不叫Exist)b.Clear(1000) // 情況set}

輸出:[][1] 0[1025] 0 10[1025 1] 0 10 64

  • 建立的bitset,set是空[]
  • 放入了一個0,用第一位表示,也就是0x00000001
  • 放入了10,內部結構0x00000041
  • 放入了64,這個時候一個整數已經存不下了,內部結構是0x000000410x00000001。set這個數組裡面,從前往後表示的資料依次增加,但是在uint64內部,是從低位開始,低位表示小的數。

與其它資料結構的對比

表示正整數的集合,Golang有很多種方式,內建的map就可以,當然這是最差的一種選擇,首先就是記憶體的浪費,其次是每次尋找還涉及到hash計算,雖然理論上hashmap的複雜度是O(1),實際上跟bitset比完全就是渣渣。此外,bitset都得升級版roaring也是不錯的選擇。如果你要儲存的資料是10000000000這種層級的,那麼用bitset就會存在低位浪費記憶體的情況,roaring可以用來壓縮空間。

import ("testing""github.com/RoaringBitmap/roaring""github.com/willf/bitset")func BenchmarkMap(b *testing.B) {var B = make(map[int]int8, 3)B[10] = 1B[11] = 1for i := 0; i < b.N; i++ {if _, exists := B[1]; exists {}if _, exists := B[11]; exists {}if _, exists := B[1000000]; exists {}}}func BenchmarkBitset(b *testing.B) {var B bitset.BitSetB.Set(10).Set(11)for i := 0; i < b.N; i++ {if B.Test(1) {}if B.Test(11) {}if B.Test(1000000) {}}}func BenchmarkRoaring(b *testing.B) {for i := 0; i < b.N; i++ {B := roaring.BitmapOf(10, 11)if B.ContainsInt(1) {}if B.ContainsInt(11) {}if B.ContainsInt(1000000) {}}}$ go test -bench=.* -benchmem BenchmarkMap-2          50000000                28.4 ns/op             0 B/op          0 allocs/opBenchmarkBitset-2       2000000000               1.86 ns/op            0 B/op          0 allocs/opBenchmarkRoaring-2       3000000               492 ns/op             152 B/op          6 allocs/op

結論

如果是比較連續的非負整數,推薦用bitset解決集合的問題。當然具體問題具體分析。

本文所涉及到的完整源碼請參考。

原文連結:Golang 最佳化之路——bitset,轉載請註明來源!

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.