python第三方庫系列之十五--編碼庫__編碼

來源:互聯網
上載者:User

首先上一張圖:

我們知道:1位元組=8位


因為Python的誕生比Unicode標準發布的時間還要早,所以最早的Python只支援ASCII編碼,普通的字串'ABC'在Python內部都是ASCII編碼的。Python提供了ord()和chr()函數,可以把字母和對應的數字相互轉換:

>>> ord('A')65>>> chr(65)'A'

Python在後來添加了對Unicode的支援,以Unicode表示的字串用u'...'表示,比如:

>>> print u'中文'中文>>> u'中'u'\u4e2d'

寫u'中'和u'\u4e2d'是一樣的,\u後面是十六進位的Unicode碼。因此,u'A'和u'\u0041'也是一樣的。

兩種字串如何相互轉換。字串'xxx'雖然是ASCII編碼,但也可以看成是UTF-8編碼,而u'xxx'則只能是Unicode編碼。

把u'xxx'轉換為UTF-8編碼的'xxx'用encode('utf-8')方法:

>>> u'ABC'.encode('utf-8')'ABC'>>> u'中文'.encode('utf-8')'\xe4\xb8\xad\xe6\x96\x87'

英文字元轉換後表示的UTF-8的值和Unicode值相等(但佔用的儲存空間不同),而中文字元轉換後1個Unicode字元將變為3個UTF-8字元,你看到的\xe4就是其中一個位元組,因為它的值是228,沒有對應的字母可以顯示,所以以十六進位顯示位元組的數值。len()函數可以返回字串的長度:

>>> len(u'ABC')3>>> len('ABC')3>>> len(u'中文')2>>> len('\xe4\xb8\xad\xe6\x96\x87')6

反過來,把UTF-8編碼錶示的字串'xxx'轉換為Unicode字串u'xxx'用decode('utf-8')方法:

>>> 'abc'.decode('utf-8')u'abc'>>> '\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')u'\u4e2d\u6587'>>> print '\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')中文

由於Python原始碼也是一個文字檔,所以,當你的原始碼中包含中文的時候,在儲存原始碼時,就需要務必指定儲存為UTF-8編碼。當Python解譯器讀取原始碼時,為了讓它按UTF-8編碼讀取,我們通常在檔案開頭寫上這兩行:

#!/usr/bin/env python# -*- coding: utf-8 -*-

第一行注釋是為了告訴Linux/OS X系統,這是一個Python可執行程式,Windows系統會忽略這個注釋;

第二行注釋是為了告訴Python解譯器,按照UTF-8編碼讀取原始碼,否則,你在原始碼中寫的中文輸出可能會有亂碼。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.