python 的字元編碼和中文處理

來源:互聯網
上載者:User
字串python有兩種字串

byteString = "hello world! (in my default locale)"

unicodeString = u"hello Unicode world!"

相互轉換

1 s = "hello normal string"

2 u = unicode( s, "utf-8" )

3 backToBytes = u.encode( "utf-8" )

3 backToUtf8 = backToBytes.decode(‘utf-8’) #與第二行效果相同

如何判斷

if isinstance( s, str ): # 對Unicode strings,這個判斷結果為False

if isinstance( s, unicode): # 對Unicode strings,這個判斷結果為True

if isinstance( s, basestring ): # 對兩種字串,返回都為True

做個實驗
範例import sys print 'default encoding: ' , sys.getdefaultencoding()print 'file system encoding: ' , sys.getfilesystemencoding()print 'stdout encoding: ' , sys.stdout.encodingprint u'u"中文" is unicode: ', isinstance(u'中文',unicode)print u'"中文" is unicode: ', isinstance('中文',unicode) 

看輸出結果,注意下列事實:

python系統預設的編碼格式為ASCII,這個預設編碼在Python轉換字串時用的到,這裡給兩個例子:

1. a = "abc" + u"bcd", Python會如此轉換"abc".decode(sys.getdefaultencoding()) 然後將兩個Unicode字元合并。

2. print unicode('中文') , 這句話執行會出錯“UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 …”,是因為Python試圖用預設編碼來編碼,而這個字串不是ASCII,因此需要顯示的指出,如果你的檔案源類型為utf-8,則應如此:print unicode('中文','utf-8’)

Windows下getfilesystemencoding輸出mbcs(多位元組編碼,windows的mbcs,也就是ansi,它會在不同語言的windows中使用不同的編碼,在中文的windows中就是gb系列的編碼)

Windows下控制台編碼為cp936, 當你列印東西到控制台時Python自動做了轉換。這裡會引發一個有趣的問題, 試一下這個簡單的例子test.py:

範例# -*- coding: utf-8 -*-s = u'中文'print s

在控制台中分別運行 python test.py 和 python test.py > 1.txt

你會發現後者會報錯,原因是列印控制台時Python會自動轉換編碼到sys.stdout.encoding, 而輸出到檔案時Python不會自動在write調用中進行內部字元轉換。這個問題在PrintFails中有較詳細的說明。

UTF-8編碼格式儲存utf-8格式的檔案

import codecs

fileObj = codecs.open( "someFile", "r", "utf-8" )

u = fileObj.read() # Returns a Unicode string from the UTF-8 bytes in the file

自己寫BOM頭

out = file( "someFile", "w" )

out.write( codecs.BOM_UTF8 )

out.write( unicodeString.encode( "utf-8" ) )

out.close()

自己去掉BOM頭

對UTF-16, Python將BOM解碼為空白字串。然而對UTF-8, BOM被解碼為一個字元,如例:

範例

>>> codecs.BOM_UTF16.decode( "utf16" )

u''

>>> codecs.BOM_UTF8.decode( "utf8" )

u'\ufeff'

不知道為什麼會這樣不同,因此你需要在讀檔案時自己去掉BOM:

去掉BOMimport codecsif s.beginswith( codecs.BOM_UTF8 ):# The byte string s begins with the BOM: Do something.# For example, decode the string as UTF-8if u[0] == unicode( codecs.BOM_UTF8, "utf8" ):# The unicode string begins with the BOM: Do something.# For example, remove the character.# Strip the BOM from the beginning of the Unicode string, if it existsu.lstrip( unicode( codecs.BOM_UTF8, "utf8" ) ) 
源碼檔案的編碼

關於Python對代碼檔案的編碼處理,PEP0263 講的很清楚,現摘錄如下

python預設認為檔案為ASCII編碼。

可在代碼頭一行或二行加入聲明檔案編碼申明,通知python該檔案的編碼格式,如

     # -*- coding: utf-8 –*-   # 注意使用的編輯器,確保檔案儲存時使用了該編碼格式

  1. 對於Windows這樣的平台,它使用了BOM(檔案頭三個位元組 \xef\xbb\xbf)來申明檔案為utf-8編碼,這種情況下:
  • 如果檔案中沒有編碼申明,python以utf8處理
  • 如果有編碼申明但不是utf-8, python報錯
相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.