打算用Python解析一下部落格檔案。
必然地遇上了中文亂碼的問題。
小弟以前學Java,用Python解決中文亂碼的問題真不知道如何入手。
在Java下面調試通過的代碼,放在Python環境下就給我鬧脾氣了。
費我九牛二虎之力,終於在一位Oschina大大的協助下問題解決了。
Python編碼的思路主要是:
1.字串
2.Unicode
3.目標編碼集 其中(CP936,GB2312,GBK,GB18030貌似可以互相直接轉換,大部分的編碼是一樣的)
瞭解Python的系統編碼的結構,先看下以下的一段代碼:
import locale def p(f): print '%s.%s(): %s' % (f.__module__, f.__name__, f()) # 返回當前系統所使用的預設字元編碼 p(sys.getdefaultencoding) # 返回用於轉換Unicode檔案名稱至系統檔案名稱所使用的編碼 p(sys.getfilesystemencoding) # 擷取預設的地區設定並返回元祖(語言, 編碼) p(locale.getdefaultlocale) # 返回使用者設定的文本資料編碼 # 文檔提到this function only returns a guess p(locale.getpreferredencoding) # \xba\xba是'漢'的GBK編碼 # mbcs是不推薦使用的編碼,這裡僅作測試表明為什麼不應該用 print r"'\xba\xba'.decode('mbcs'):", repr('\xba\xba'.decode('mbcs')) #在筆者的Windows上的結果(地區設定為中文(簡體, 中國)) #sys.getdefaultencoding(): gbk #sys.getfilesystemencoding(): mbcs #locale.getdefaultlocale(): ('zh_CN', 'cp936') #locale.getpreferredencoding(): cp936 #'\xba\xba'.decode('mbcs'): u'\u6c49'