先看一個題目:
給你一堆西安市的電話號碼列表,數量大概在千萬級,
要求從中找出所有重複的電話號碼,需要時間複雜度儘可能小。
目前西安市的電話號碼大概都以8開頭,為8位,也就是
類似於82678578這樣子
二重暴力搜尋時間複雜度太高,這裡我們不予考慮。
容易想到的辦法就是建立一個標誌數組,
int boolean都行,用相應的位置值來代替這個號碼是否出現,
根據數組的可直接存取特性,來提高效率。
但是你是否想過或測試過
int[] a = new int[100000000];
boolean[] a = new boolean[100000000];
這樣類似的語句是否可以通過編譯並且執行。
再仔細思考下,就會發現,int型的欄位太過於占空間,我們只需要知道這個號碼存在與否,
所以最簡單的0和1就夠用了,能表示0和1的最小儲存單位是什麼呢。
是記憶體中的一位。
OK,這就是bitmap的思想。
將西安市的電話號碼去掉開頭的8,就可以將其映射到一個1到10000000的數組中。
8bit是1byte,1024byte是1kb,1024kb是1mb
所以10000000個bit佔用的空間為
10000000/8/1024/1024mb大概為1mb多些,
這對於現在大家動不動幾G的記憶體來說,完全是小菜一碟。
同時,java中也有對應的實現,java.util.BitSet,
完全是為這個量身定做的java類。
這個類從jdk1.0開始就有了,不過其中的某些方法是jdk1.4以後才有的,
大家用的時候要當心。
另外BitSet是非安全執行緒的,需要外部同步。
下面的簡單代碼給出了BitSet的例子:
//建立一個具有10000000位的bitset 初始所有位的值為false java.util.BitSet bitSet = new java.util.BitSet(10000000); //將指定位的值設為true bitSet.set(9999, true); //輸出指定位的值 System.out.println(bitSet.get(9999)); System.out.println(bitSet.get(9998));