在程式啟動並執行過程中,所有的變數都是在記憶體中,比如,定義一個dict:
d = dict(name='Bob', age=20, score=88)
可以隨時修改變數,比如把name改成'Bill',但是一旦程式結束,變數所佔用的記憶體就被作業系統全部回收。如果沒有把修改後的'Bill'儲存到磁碟上,下次重新運行程式,變數又被初始化為'Bob'。
我們把變數從記憶體中變成可儲存或傳輸的過程稱之為序列化,在Python中叫pickling,在其他語言中也被稱之為serialization,marshalling,flattening等等,都是一個意思。
序列化之後,就可以把序列化後的內容寫入磁碟,或者通過網路傳輸到別的機器上。
反過來,把變數內容從序列化的對象重新讀到記憶體裡稱之為還原序列化,即unpickling。
Python提供兩個模組來實現序列化:cPickle和pickle。這兩個模組功能是一樣的,區別在於cPickle是C語言寫的,速度快,pickle是純Python寫的,速度慢,跟cStringIO和StringIO一個道理。用的時候,先嘗試匯入cPickle,如果失敗,再匯入pickle:
try: import cPickle as pickleexcept ImportError: import pickle
首先,我們嘗試把一個對象序列化並寫入檔案:
>>> d = dict(name='Bob', age=20, score=88)>>> pickle.dumps(d)"(dp0\nS'age'\np1\nI20\nsS'score'\np2\nI88\nsS'name'\np3\nS'Bob'\np4\ns."
pickle.dumps()方法把任意對象序列化成一個str,然後,就可以把這個str寫入檔案。或者用另一個方法pickle.dump()直接把對象序列化後寫入一個file-like Object:
>>> f = open('dump.txt', 'wb')>>> pickle.dump(d, f)>>> f.close()
看看寫入的dump.txt檔案,一堆亂七八糟的內容,這些都是Python儲存的對象內部資訊。
當我們要把對象從磁碟讀到記憶體時,可以先把內容讀到一個str,然後用pickle.loads()方法還原序列化出對象,也可以直接用pickle.load()方法從一個file-like Object中直接還原序列化出對象。我們開啟另一個Python命令列來還原序列化剛才儲存的對象:
>>> f = open('dump.txt', 'rb')>>> d = pickle.load(f)>>> f.close()>>> d{'age': 20, 'score': 88, 'name': 'Bob'}
變數的內容又回來了!
當然,這個變數和原來的變數是完全不相干的對象,它們只是內容相同而已。
Pickle的問題和所有其他程式設計語言特有的序列化問題一樣,就是它只能用於Python,並且可能不同版本的Python彼此都不相容,因此,只能用Pickle儲存那些不重要的資料,不能成功地還原序列化也沒關係。