標籤:字元 問題 decode 函數 python 初學者 nbsp span str
python中的字元編碼問題往往是初學者容易弄不明白的問題, 要想將這個問題搞清楚,需要先弄明白以下的概念
- decode 和 encode 函數的作用
- 字串字面量的編碼格式
decode(str) - 將其它編碼字串轉換成Unicode編碼字串, 返迴轉換成Unicode編碼的字串
encode(str) - 將Unicode字串轉換成其它編碼(str)字串, 返迴轉換成其它編碼後的字串.
所以, decode 和 encode的作用就是將其他編碼轉換成Unicode , 將Unicode轉換成其他編碼.
值得注意的是 ,調用decode的對象的本身的編碼和decode形參指明的編碼不一致時函數會出錯,比如,str1字串對象它本身的編碼是ASCII的,但傳入的參數為‘gb2312‘,則函數會中斷.
而當一個字串對象它本身的編碼不是Unicode卻調用encode函數,那麼函數也會出錯.
# ‘大家好‘ 是一個字串字面量, 在不同的編輯器中, 它的編碼格式是不一樣的# 如果編輯器是以utf-8編碼格式來儲存文本的, 那麼,所有的字串字面量都是utf-8格式# 如果編輯器是以gb2312編碼格式來儲存文本的,那麼, 所有的字串字面量都是ASCII格式str1 = ‘大家好‘ # 因為編輯器是以gb2132編碼儲存文本的, 所以這裡先將gb2312的字串轉換成Unicode類型的字串# 因此, str1是gb2132編碼的, str2是Unicode的str2 = str1.decode(‘gb2312‘) # str2是Unicode編碼的,因此可以調用encode函數str2.encode("utf-8")
總結
- 在調用decode函數時,一定要弄清楚調用這個函數的字串對象本身是什麼編碼,只有這樣你才知道你要傳入的形參是什麼
- 在調用encode函數時,一定要確保調用這個函數的字串對象本身是Unicode編碼的.
Python 字元編碼問題的處理