這篇文章主要介紹了在Python中使用base64模組處理字元編碼的教程,範例程式碼基於Python2.x版本,需要的朋友可以參考下
Base64是一種用64個字元來表示任意位元據的方法。
用記事本開啟exe、jpg、pdf這些檔案時,我們都會看到一大堆亂碼,因為二進位檔案包含很多無法顯示和列印的字元,所以,如果要讓記事本這樣的文本處理軟體能處理位元據,就需要一個二進位到字串的轉換方法。Base64是一種最常見的二進位編碼方法。
Base64的原理很簡單,首先,準備一個包含64個字元的數組:
?
1 |
['A', 'B', 'C', ... 'a', 'b', 'c', ... '0', '1', ... '+', '/'] |
然後,對位元據進行處理,每3個位元組一組,一共是3x8=24bit,劃為4組,每組正好6個bit:
這樣我們得到4個數字作為索引,然後查表,獲得相應的4個字元,就是編碼後的字串。
所以,Base64編碼會把3位元組的位元據編碼為4位元組的文本資料,長度增加33%,好處是編碼後的文本資料可以在郵件內文、網頁等直接顯示。
如果要編碼的位元據不是3的倍數,最後會剩下1個或2個位元組怎麼辦?Base64用x00位元組在末尾補足後,再在編碼的末尾加上1個或2個=號,表示補了多少位元組,解碼的時候,會自動去掉。
Python內建的base64可以直接進行base64的編解碼:
?
1 2 3 4 5 |
>>> import base64 >>> base64.b64encode('binaryx00string') 'YmluYXJ5AHN0cmluZw==' >>> base64.b64decode('YmluYXJ5AHN0cmluZw==') 'binaryx00string' |
由於標準的Base64編碼後可能出現字元+和/,在URL中就不能直接作為參數,所以又有一種"url safe"的base64編碼,其實就是把字元+和/分別變成-和_:
?
1 2 3 4 5 6 |
>>> base64.b64encode('ixb7x1dxfbxefxff') 'abcd++//' >>> base64.urlsafe_b64encode('ixb7x1dxfbxefxff') 'abcd--__' >>> base64.urlsafe_b64decode('abcd--__') 'ixb7x1dxfbxefxff' |
還可以自己定義64個字元的排列順序,這樣就可以自訂Base64編碼,不過,通常情況下完全沒有必要。
Base64是一種通過查表的編碼方法,不能用於加密,即使使用自訂的編碼錶也不行。
Base64適用於小段內容的編碼,比如數位憑證簽名、Cookie的內容等。
由於=字元也可能出現在Base64編碼中,但=用在URL、Cookie裡面會造成歧義,所以,很多Base64編碼後會把=去掉:
?
1 2 3 4 |
# 標準Base64: 'abcd' -> 'YWJjZA==' # 自動去掉=: 'abcd' -> 'YWJjZA' |
去掉=後怎麼解碼呢?因為Base64是把3個位元組變為4個位元組,所以,Base64編碼的長度永遠是4的倍數,因此,需要加上=把Base64字串的長度變為4的倍數,就可以正常解碼了。
請寫一個能處理去掉=的base64解碼函數:
?
1 2 3 4 5 6 7 8 |
>>> base64.b64decode('YWJjZA==') 'abcd' >>> base64.b64decode('YWJjZA') Traceback (most recent call last): ... TypeError: Incorrect padding >>> safe_b64decode('YWJjZA') 'abcd' |
小結
Base64是一種任意二進位到文本字串的編碼方法,常用於在URL、Cookie、網頁中傳輸少量位元據。