標籤:
編碼與解碼首先,明確一點,電腦中儲存的資訊都是二進位的 編碼/解碼本質上是一種映射(對應關係),比如‘a’用ascii編碼則是65,電腦中儲存的就是00110101,但是顯示的時候不能顯示00110101,還是要顯示‘a‘,但電腦怎麼知道00110101是‘a‘呢,這就需要解碼,當選擇用ascii解碼時,當電腦讀到00110101時就到對應的ascii表裡一查發現是‘a‘,就顯示為‘a‘ 編碼:真實字元與二進位串的對應關係,真實字元→二進位串解碼:二進位串與真實字元的對應關係,二進位串→真實字元 ASCII & UTF-8大家熟知的ASCII以1位元組8個bit位表示一個字元,首位全是0,表示的字元集明顯不夠
unicode編碼系統是為表達任意語言而設計的,為了防止儲存上的冗餘(比如,對應ascii碼的部分),其採用了變長編碼,但變長編碼給解碼帶來了困難,無法判斷是幾個位元組表示一個字元
UTF-8是針對unicode變長編碼設計的一種首碼嗎,根據首碼可判斷是幾個位元組表示一個字元如果一個位元組的第一位是0,則這個位元組單獨就是一個字元;如果第一位是1,則連續有多少個1,就表示當前字元佔用多少個位元組。比如"嚴"的unicode是4E25(100111000100101),4E25處在第三行的範圍內(0000 0800-0000 FFFF),因此"嚴"的UTF-8編碼需要三個位元組,即格式是"1110xxxx 10xxxxxx 10xxxxxx"。然後,從"嚴"的最後一個二進位位開始,依次從後向前填入格式中的x,高位補0,得到"嚴"的UTF-8編碼是"11100100 10111000 10100101"。 python中的解碼和編碼在python中,編碼解碼其實是不同編碼系統間的轉換,預設情況下,轉換目標是Unicode,即編碼unicode→str,解碼str→unicode,其中str指的是位元組流而str.decode是將位元組流str按給定的解碼方式解碼,並轉換成utf-8形式,u.encode是將unicode類按給定的編碼方式轉換成位元組流str注意調用encode方法的是unicode對象產生的是位元組流,調用decode方法的是str對象(位元組流)產生的是unicode對象,若str對象調用encode會預設先按系統預設編碼方式decode成unicode對象再encode,忽視了中間預設的decode往往導致報錯自己寫代碼時只需記住str位元組流調用decode,unicode對象調用
123 |
s = u ‘嚴‘ s print type (s), s |
第一行定義了一個unicode對象(不是utf8)第二行會輸出u‘\u4e25‘第三行輸出<type ‘unicode‘> 嚴
123 |
u = s.encode( ‘utf8‘ ) u print type (u),u |
倘若這時我用s.encode(‘utf8‘),則將s使用utf-8編碼並將編碼結果儲存為位元組流第二行輸出‘\xe4\xb8\xa5‘第三行輸出<type ‘str‘> 涓 還有要注意的是,終端預設的編碼格式是gbk,windows cmd中可以通過chcp查看以及改變,也可以到註冊表修改終端預設編碼(HKEY_CURRENT_USER console或者powershell下的codepage),936為簡體中文,65001為utf8,兩者都可顯示中文,但為了方便中文輸入,我將其預設設為936當調用print函數將內容格式化輸出到終端時,會將unicode對象轉換為終端的編碼方式輸出,如上面第一次print的結果是正常的,print utf8位元組流時,終端按其預設gbk解碼顯示時就會出問題,這裡恰巧‘\xe4\xb8‘為gbk下的“涓”
12 |
t = s.encode( ‘utf8‘ ).decode( ‘utf8‘ ) t |
第二行會輸出u‘\u4e25‘ 檔案的編碼格式儲存文本時也有編碼格式,比如txt檔案儲存可選擇則ASCII、utf8等,在python中讀取檔案
12 |
fr = open ( ‘encode.py‘ , ‘r‘ ) fstr = fr.read() |
只要記住fstr是位元組流,其他的操作參看上面即可 註:以上操作均在cmd或powershell下完成,在python內建的解譯器下會有問題,s=u‘你好‘,然後s,顯示的雖然是unicode對象,但是編碼卻是gbk的而不是unicode 參考
- 字元編碼簡介 http://blog.csdn.net/trochiluses/article/details/8782019
- chcp http://baike.baidu.com/link?url=_qaJTLxmRJoD5pPV8ykh7om7uHqtuCquD5wqAwfrTmCMg3Ii3F3s7r11xD6rqf6ZkzH_ljz-1DwzEXyXEi2_lq
- python字元編碼與解碼 http://blog.csdn.net/trochiluses/article/details/16825269
python中的編碼與解碼