首先上一張圖:
我們知道:1位元組=8位
因為Python的誕生比Unicode標準發布的時間還要早,所以最早的Python只支援ASCII編碼,普通的字串'ABC'在Python內部都是ASCII編碼的。Python提供了ord()和chr()函數,可以把字母和對應的數字相互轉換:
>>> ord('A')65>>> chr(65)'A'
Python在後來添加了對Unicode的支援,以Unicode表示的字串用u'...'表示,比如:
>>> print u'中文'中文>>> u'中'u'\u4e2d'
寫u'中'和u'\u4e2d'是一樣的,\u後面是十六進位的Unicode碼。因此,u'A'和u'\u0041'也是一樣的。
兩種字串如何相互轉換。字串'xxx'雖然是ASCII編碼,但也可以看成是UTF-8編碼,而u'xxx'則只能是Unicode編碼。
把u'xxx'轉換為UTF-8編碼的'xxx'用encode('utf-8')方法:
>>> u'ABC'.encode('utf-8')'ABC'>>> u'中文'.encode('utf-8')'\xe4\xb8\xad\xe6\x96\x87'
英文字元轉換後表示的UTF-8的值和Unicode值相等(但佔用的儲存空間不同),而中文字元轉換後1個Unicode字元將變為3個UTF-8字元,你看到的\xe4就是其中一個位元組,因為它的值是228,沒有對應的字母可以顯示,所以以十六進位顯示位元組的數值。len()函數可以返回字串的長度:
>>> len(u'ABC')3>>> len('ABC')3>>> len(u'中文')2>>> len('\xe4\xb8\xad\xe6\x96\x87')6
反過來,把UTF-8編碼錶示的字串'xxx'轉換為Unicode字串u'xxx'用decode('utf-8')方法:
>>> 'abc'.decode('utf-8')u'abc'>>> '\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')u'\u4e2d\u6587'>>> print '\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')中文
由於Python原始碼也是一個文字檔,所以,當你的原始碼中包含中文的時候,在儲存原始碼時,就需要務必指定儲存為UTF-8編碼。當Python解譯器讀取原始碼時,為了讓它按UTF-8編碼讀取,我們通常在檔案開頭寫上這兩行:
#!/usr/bin/env python# -*- coding: utf-8 -*-
第一行注釋是為了告訴Linux/OS X系統,這是一個Python可執行程式,Windows系統會忽略這個注釋;
第二行注釋是為了告訴Python解譯器,按照UTF-8編碼讀取原始碼,否則,你在原始碼中寫的中文輸出可能會有亂碼。