Python中的字元編碼問題

來源:互聯網
上載者:User

標籤:style   blog   http   color   strong   檔案   2014   問題   

  初學Python,本身就在一些語句處有些迷惑,如 a = u‘你好‘,不知加上這個Unicode參數有何作用。一直到做爬蟲抓取新聞時,在cmd的輸出上總是出現錯誤。經過檢索相關知識後,對一些編碼問題做個小總結,其中參雜個人猜測,難免會有錯誤,以後再慢慢修改了。

  1.一定要聲明#coding=XXX嗎?

    首先.py檔案中,編碼預設是ASCII的,一旦py檔案中出現了中文類似編碼,IDE就會提示

    

    也就是提示文中出現了非ASCII,建議在檔案開始制定編碼,當然我們常用的是#coding:utf8 (貌似用那個帶好多花花的,或者utf-8寫法都無所謂)

  2.Unicode編碼是做什麼的?

    產生曆史什麼的就不提了,在python中有兩種字串類型,unicode和str ,簡單來說Unicode是python內部表示字串的方法,同時很多終端也是可以識別這個,而str的編碼格式就是檔案其實#coding:指定的。寫個例子

:這個直接在windows下執行的話顯示:。

  3.如何進行編碼轉換

    想要解決2中的問題,很明顯,需要將s1按照utf-8解碼成為原始模式(unicode)模式OK,如s3 = s1.decode(‘utf8‘) 然後print s3 即可。可以這麼總結:在讀取一個內容時,或者說從網上抓取內容時,Python會將其儲存在str中,如果說想要轉換成其他的類型,需要先進性相應的decode,然後再encode改變格式。舉個例子:

#coding=utf8s1 = ‘哈哈‘s2 = u‘哈哈‘uni_s1 = s1.decode(‘utf8‘)assert(uni_s1 == s2) #如果不相等拋出異常str_s2 = s2.encode(‘utf8‘)assert(str_s2 == s1)raw_input("")

這個直接運行顯示無錯。也比較好理解了。

  最近在抓取一個網頁上的內容時,在cmd中顯示出來總是亂碼,現在發現了問題,原來是utf8的格式,現在在內容顯示時候加上.decode(‘utf8‘).encode(‘gbk‘)便能正常顯示中文了。或者說,在read網頁時候,直接解碼為unicode也可!

 

    

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.