Python 字元編碼問題的處理

來源:互聯網
上載者:User

標籤:字元   問題   decode   函數   python   初學者   nbsp   span   str   

python中的字元編碼問題往往是初學者容易弄不明白的問題, 要想將這個問題搞清楚,需要先弄明白以下的概念

  • decode 和 encode 函數的作用
  • 字串字面量的編碼格式

decode(str)  -  將其它編碼字串轉換成Unicode編碼字串, 返迴轉換成Unicode編碼的字串

encode(str)  -  將Unicode字串轉換成其它編碼(str)字串, 返迴轉換成其它編碼後的字串.

所以, decode 和 encode的作用就是將其他編碼轉換成Unicode , 將Unicode轉換成其他編碼.
值得注意的是 ,調用decode的對象的本身的編碼和decode形參指明的編碼不一致時函數會出錯,比如,str1字串對象它本身的編碼是ASCII的,但傳入的參數為‘gb2312‘,則函數會中斷.
而當一個字串對象它本身的編碼不是Unicode卻調用encode函數,那麼函數也會出錯.

# ‘大家好‘ 是一個字串字面量, 在不同的編輯器中, 它的編碼格式是不一樣的# 如果編輯器是以utf-8編碼格式來儲存文本的, 那麼,所有的字串字面量都是utf-8格式# 如果編輯器是以gb2312編碼格式來儲存文本的,那麼, 所有的字串字面量都是ASCII格式str1 = ‘大家好‘ # 因為編輯器是以gb2132編碼儲存文本的, 所以這裡先將gb2312的字串轉換成Unicode類型的字串# 因此, str1是gb2132編碼的, str2是Unicode的str2 = str1.decode(‘gb2312‘) # str2是Unicode編碼的,因此可以調用encode函數str2.encode("utf-8")

 

 

總結

    • 在調用decode函數時,一定要弄清楚調用這個函數的字串對象本身是什麼編碼,只有這樣你才知道你要傳入的形參是什麼
    • 在調用encode函數時,一定要確保調用這個函數的字串對象本身是Unicode編碼的.

Python 字元編碼問題的處理

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.