Python的中文字元亂碼

來源:互聯網
上載者:User
打算用Python解析一下部落格檔案。

必然地遇上了中文亂碼的問題。

小弟以前學Java,用Python解決中文亂碼的問題真不知道如何入手。

在Java下面調試通過的代碼,放在Python環境下就給我鬧脾氣了。

費我九牛二虎之力,終於在一位Oschina大大的協助下問題解決了。

Python編碼的思路主要是:

1.字串

2.Unicode

3.目標編碼集 其中(CP936,GB2312,GBK,GB18030貌似可以互相直接轉換,大部分的編碼是一樣的)

瞭解Python的系統編碼的結構,先看下以下的一段代碼:

import locale   def p(f):     print '%s.%s(): %s' % (f.__module__, f.__name__, f())   # 返回當前系統所使用的預設字元編碼 p(sys.getdefaultencoding)   # 返回用於轉換Unicode檔案名稱至系統檔案名稱所使用的編碼 p(sys.getfilesystemencoding)   # 擷取預設的地區設定並返回元祖(語言, 編碼) p(locale.getdefaultlocale)   # 返回使用者設定的文本資料編碼 # 文檔提到this function only returns a guess p(locale.getpreferredencoding)   # \xba\xba是'漢'的GBK編碼 # mbcs是不推薦使用的編碼,這裡僅作測試表明為什麼不應該用 print r"'\xba\xba'.decode('mbcs'):", repr('\xba\xba'.decode('mbcs'))   #在筆者的Windows上的結果(地區設定為中文(簡體, 中國)) #sys.getdefaultencoding(): gbk #sys.getfilesystemencoding(): mbcs #locale.getdefaultlocale(): ('zh_CN', 'cp936') #locale.getpreferredencoding(): cp936 #'\xba\xba'.decode('mbcs'): u'\u6c49'
  • 聯繫我們

    該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

    如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

    A Free Trial That Lets You Build Big!

    Start building with 50+ products and up to 12 months usage for Elastic Compute Service

    • Sales Support

      1 on 1 presale consultation

    • After-Sales Support

      24/7 Technical Support 6 Free Tickets per Quarter Faster Response

    • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.