python 自然語言處理編碼轉換

來源:互聯網
上載者:User

http://blog.csdn.net/zhaoweikid/article/details/1642015

    python對多國語言的處理是支援的很好的,它可以處理現在任意編碼的字元,這裡深入的研究一下python對多種不同語言的處理。     有一點需要清楚的是,當python要做編碼轉換的時候,會藉助於內部的編碼,轉換過程是這樣的:         原有編碼 -> 內部編碼 -> 目的編碼     python的內部是使用unicode來處理的,但是unicode的使用需要考慮的是它的編碼格式有兩種,一是UCS-2,它一共有65536個碼位,另一種是UCS-4,它有2147483648g個碼位。對於這兩種格式,python都是支援的,這個是在編譯時間通過--enable-unicode=ucs2或--enable-unicode=ucs4來指定的。那麼我們自己預設安裝的python有的什麼編碼怎麼來確定呢?有一個辦法,就是通過sys.maxunicode的值來判斷:

import sys print sys.maxunicode

    如果輸出的值為65535,那麼就是UCS-2,如果輸出是1114111就是UCS-4編碼。 我們要認識到一點:當一個字串轉換為內部編碼後,它就不是str類型了!它是unicode類型:

a ="風捲殘雲" print type(a) b = a.unicode(a, "gb2312") print type(b)

輸出: <type 'str'> <type 'unicode'>
這個時候b可以方便的任意轉換為其他編碼,比如轉換為utf-8:

c = b.encode("utf-8") print c

c輸出的東西看起來是亂碼,那就對了,因為是utf-8的字串。     好了,該說說codecs模組了,它和我上面說的概念是密切相關的。codecs專門用作編碼轉換,當然,其實通過它的介面是可以擴充到其他關於代碼方面的轉換的,這個東西這裡不涉及。

#-*- encoding: gb2312 -*-import codecs, sys
print'-'*60# 建立gb2312編碼器look  = codecs.lookup("gb2312") # 建立utf-8編碼器look2 = codecs.lookup("utf-8")
a ="我愛北京天安門"
print len(a), a # 把a編碼為內部的unicode, 但為什麼方法名為decode呢,我的理解是把gb2312的字串解碼為unicodeb = look.decode(a) # 返回的b[0]是資料,b[1]是長度,這個時候的類型是unicode了print b[1], b[0], type(b[0]) # 把內部編碼的unicode轉換為gb2312編碼的字串,encode方法會返回一個字串類型b2 = look.encode(b[0]) # 發現不一樣的地方了吧?轉換回來之後,字串長度由14變為了7! 現在的返回的長度才是真正的字數,原來的是位元組數print b2[1], b2[0], type(b2[0]) # 雖然上面返回了字數,但並不意味著用len求b2[0]的長度就是7了,仍然還是14,僅僅是codecs.encode會統計字數print len(b2[0])

    上面的代碼就是codecs的使用,是最常見的用法。另外還有一個問題就是,如果我們處理的檔案裡的字元編碼是其他類型的呢?這個讀取進行做處理也需要特殊的處理的。codecs也提供了方法.

#-*- encoding: gb2312 -*- import codecs, sys # 用codecs提供的open方法來指定開啟的檔案的語言編碼,它會在讀取的時候自動轉換為內部unicode bfile = codecs.open("dddd.txt", 'r', "big5") #bfile = open("dddd.txt", 'r') ss = bfile.read() bfile.close() # 輸出,這個時候看到的就是轉換後的結果。如果使用語言內建的open函數來開啟檔案,這裡看到的必定是亂碼 print ss, type(ss)

上面這個處理big5的,可以去找段big5編碼的檔案試試。 www.pythonid.com

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.