詳解Python中使用base64模組來處理base64編碼的方法,pythonbase64
base64模組是用來作base64編碼解碼的。這種編碼方式在電子郵件中是很常見的。
它可以把不能作為文本顯示的位元據編碼為可顯示的文本資訊。編碼後的文字大小會增大1/3。
閑話不說了,base64模組真正用的上的方法只有8個,分別是encode, decode, encodestring, decodestring, b64encode,b64decode, urlsafe_b64decode,urlsafe_b64encode。他們8個可以兩兩分為4組,encode,decode一組,專門用來編碼和 解碼檔案的,也可以對StringIO裡的資料做編解碼;encodestring,decodestring一組,專門用來編碼和解碼字串; b64encode和b64decode一組,用來編碼和解碼字串,並且有一個替換符號字元的功能。這個功能是這樣的:因為base64編碼後的字元除 了英文字母和數字外還有三個字元 + / =, 其中=只是為了補全編碼後的字元數為4的整數,而+和/在一些情況下需要被替換的,b64encode和b64decode正是提供了這樣的功能。至於什 麼情況下+和/需要被替換,最常見的就是對url進行base64編碼的時候。urlsafe_b64encode和urlsafe_b64decode 一組,這個就是用來專門對url進行base64編解碼的,實際上也是調用的前一組函數。
基本用法
首先準備一個64個字元的數組[‘A','B','C', … , ‘1', ‘2', … , ‘+']
然後對位元據進行處理, 每三個位元組(byte)一組, 一共是3x8=24, 劃為4組,每組6bit.這樣我們得到4個數字作為索引, 然後查表獲得相應的4個字元, 就是編碼後的字串.
如果編碼的位元不是3的倍數怎麼辦,base64在\x00在末尾不足後,在代碼的末尾添加1~2個=號,解碼是自動去掉
import base64me = base64.b64encode("mink")print me # print 'bWluaw=='
會把少的字元用=號補上
print base64.b64decode(me) # print 'mink'
可以解碼得到原有的字串
urlsafe_b64encode 和 urlsafe_b64decode
base64的還提供用於url的編碼方法urlsafe_b64encode 和urlsafe_b64decode.
me = base64.urlsafe_b64encode('i\xb7\x1d\xfb\xef\xff')print me # print 'abcd--__'print base64.urlsafe_b64decode(me) print 'abcd++//'
因為base64編碼後+和-可能會出現在字元中,所以通過urlsafe的方法把+轉換為-,/轉化為_.
由於=字元也可能出現在Base64編碼中,但=用在URL Cookie裡面會造成歧義,很多Base64編碼後會把=去掉.去掉=後怎麼解碼呢?因為Base64是把3個位元組變為4個位元組,所以Base64編碼的長度永遠是4的倍數.因此需要加上=把Base64字串的長度變為4的倍數,就可以正常解碼了.
綜合樣本
#-*- encoding:gb2312 -*-import base64import StringIOa = "this is a test"b = base64.encodestring(a) # 對字串編碼print bprint base64.decodestring(b) # 對字串解碼c = StringIO.StringIO()c.write(a)d = StringIO.StringIO()e = StringIO.StringIO()c.seek(0)base64.encode(c, d) # 對StringIO內的資料進行編碼print d.getvalue()d.seek(0)base64.decode(d, e) # 對StringIO內的資料進行解碼print e.getvalue()a = "this is a +test"b = base64.urlsafe_b64encode(a) # 進行url的字串編碼print bprint base64.urlsafe_b64decode(b)
上面的encode函數和decode函數的參數其實還可以是檔案對象的,那的象這樣:
f1 = open('aaa.txt', 'r')f2 = open('bbb.txt', 'w')base64.encode(f1, f2)f1.close()f2.close()