Python實現以時間換空間的緩衝替換演算法

來源:互聯網
上載者:User
緩衝是指可以進行高速資料交換的儲存空間,它先於記憶體與CPU交換資料,因此速度很快。緩衝就是把一些資料暫時存放於某些地方,可能是記憶體,也有可能硬碟。

在使用Scrapy耙梳站的時候,產生出來的附加產物,因為在Scrapy爬取的時候,CPU的已耗用時間緊迫度不高(訪問頻次太高容易被封鎖),藉此機會難得來上一下,讓自己的記憶體解放一下。

演算法原理:

通過將要緩衝的資料用二進位展開,得到的位元據映射到緩衝欄位上,要檢驗是否已經緩衝過,僅需要去尋找對應的映射位置即可,如果全部匹配上,則已經緩衝。

# 二進位就是個二叉樹
# 如下面可以表示出來的資料有0, 1, 2, 3四個(兩個樹獨立)

0 1
/ \ / \
0 1 0 1

因此對緩衝的操作就轉化為對二叉樹的操作,添加和尋找只要在二叉樹上找到對應路徑的node即可。

演算法關鍵代碼:

def _read_bit(self, data, position):return (data >> position) & 0x1def _write_bit(self, data, position, value):return data | value << position

實際使用效果如何呢?

在和Python預設的 set 相比較,得出測試結果如下(存取整型,不定長字串,定長字串):

Please select test mode:4Please enter test times:1000====================================================================================================TEST RESULT::====================================================================================================set() bytecacheitems 1000 1000add(s) 0.0 0.0209999084473read(s) 0.0 0.0149998664856hits 1000 1000missed 0 0size 32992 56add(s/item) 0.0 2.09999084473e-05read(s/item) 0.0 2.09999084473e-05====================================================================================================size (set / bytecache): 589.142857143add time (bytecache / set): N/Aread time (bytecache / set): N/A====================================================================================================...test fixed length & int data end...====================================================================================================TEST RESULT::====================================================================================================set() bytecacheitems 1000 1000add(s) 0.00100016593933 6.1740000248read(s) 0.0 7.21300005913hits 999 999missed 0 0size 32992 56add(s/item) 1.00016593933e-06 0.0061740000248read(s/item) 0.0 0.0061740000248====================================================================================================size (set / bytecache): 589.142857143add time (bytecache / set): 6172.97568534read time (bytecache / set): N/A====================================================================================================...test mutative length & string data end...====================================================================================================TEST RESULT::====================================================================================================set() bytecacheitems 1000 1000add(s) 0.0 0.513999938965read(s) 0.0 0.421000003815hits 999 999missed 0 0size 32992 56add(s/item) 0.0 0.000513999938965read(s/item) 0.0 0.000513999938965====================================================================================================size (set / bytecache): 589.142857143add time (bytecache / set): N/Aread time (bytecache / set): N/A====================================================================================================...test Fixed length(64) & string data end...

測試下來,記憶體消耗控制的比較好,一直在56位元組,而是用 set 的記憶體雖然也不是很大,當相較於 ByteCache 來說,則大上很多。

但 ByteCache 的方式來緩衝,最大的問題是當碰到非常大的隨機資料時,消耗時間會比較驚人。如下面這種隨機長度的字串緩衝測試結果:

Please select test mode:2Please enter test times:2000====================================================================================================TEST RESULT::====================================================================================================set() bytecacheitems 2000 2000add(s) 0.00400018692017 31.3759999275read(s) 0.0 44.251999855hits 1999 1999missed 0 0size 131296 56add(s/item) 2.00009346008e-06 0.0156879999638read(s/item) 0.0 0.0156879999638====================================================================================================size (set / bytecache): 2344.57142857add time (bytecache / set): 7843.63344856read time (bytecache / set): N/A====================================================================================================...test mutative length & string data end...

在2000個資料中,添加消耗31s,尋找消耗44s,而 set 接近於0,單條資料也需要16ms(均值)才能完成讀/寫操作。

不過,正如開頭說的,在緊迫度不是很高的Scrapy中,這個時間並不會太過於窘迫,更何況在Scrapy中,一般是用來緩衝雜湊後的資料,這些資料的一個重要特性是定長,定長在本緩衝演算法中還是表現不錯的,在64位長度的時候,均值才0.5ms。而與此同時倒是能在大量緩衝的時候,釋放出比較客觀的記憶體。

如果有更好的緩衝演算法能讓速度在上新台階,也是無比期待的。。。

總結:

1. 此方法的目標是用時間換取空間,切勿在時間緊迫度高的地方使用

2. 非常適用於大量定長,且資料本身比較小的情況下使用

3. 接2,非常不建議在大量不定長的資料,而且資料本身比較大的情況下使用

以上內容是小編給大家介紹的Python實現以時間換空間的緩衝替換演算法,希望對大家有所協助!

  • 聯繫我們

    該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

    如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

    A Free Trial That Lets You Build Big!

    Start building with 50+ products and up to 12 months usage for Elastic Compute Service

    • Sales Support

      1 on 1 presale consultation

    • After-Sales Support

      24/7 Technical Support 6 Free Tickets per Quarter Faster Response

    • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.