maketrans和translate函數是進行字串字元編碼的常用方法。本文著重點在於示範其基本用法和在不同版本下操作的差異。本文提到的2.X版本指2.6以上的版本,3.X版本指3.1以上的版本。
2.X版本把字串基本分為兩種:unicode字串和8位字串str,後者包含位元組資料和我們常見的ASCII碼資料;而3.X版本則重新對字串進行了劃分,分為了位元組字串bytes和文本字串str,兩者都是不可變的,所以添加了一個可變的位元組字串類型bytearray。
2.X版本中string類型和str、unicode類型大量方法是重複的,所以3.X版本不提倡使用string模組中與str重複的方法。string模組中還有很多有用的常量和方法,比如string.digits,可以在字串編碼中方便地使用。
2.X中maketrans和translate函數的簽名:
string.maketrans(from, to) string.translate(s, table[, deletechars]) str.translate(table[, deletechars]) unicode.translate(table)
3.X中maketrans和translate函數的簽名:
static str.maketrans(x[, y[, z]]) static bytes.maketrans(from, to) static bytearray.maketrans(from, to) str.translate(map) bytes.translate(table[, delete]) bytearray.translate(table[, delete])
從中可以看出,相對於2.X的string模組的maketrans方法,3.X中分別提供了三個靜態方法用於建立映射表。
下面讓我們看一個簡單的例子來說明字串轉換的過程:
2.X下的示範過程:
>>> import string #匯入string模組 >>> map = string.maketrans('123', 'abc') #建立映射表,將字串中含有的'1','2','3'替換為'a','b','c' >>> s = '54321123789' #轉換前的字串 >>> s.translate(map) #用建立的映射表map轉換字串 '54cbaabc789' #轉換後的字串
3.X下的示範過程:
>>> map = str.maketrans('123','abc') >>> s = '54321123789' >>> s.translate(map) '54cbaabc789'
2.X使用了string的maketrans函數,而3.X使用了str的maketrans函數,除了這一點,使用方法是基本相同的。若指定字串中要刪除的字元時,使用就會略有不同,如下:
2.X下的示範過程:
>>> import string >>> map = string.maketrans('123', 'abc') >>> s = '54321123789' >>> s.translate(map, '78') #除了轉換,還要刪除字串中的字元'7','8' '54cbaabc9' #轉換後的字串沒有字元'7','8'
3.X下的示範過程:
>>> map = str.maketrans('123','abc', '78')#要刪除的字元需要在這指定 >>> s = '54321123789' >>> s.translate(map) '54cbaabc9'
我在讀《Python Cookbook》遇到了一個基於2.X版本的例子,如下
import string def translator(frm='', to='', delete='', keep=None): if len(to) == 1: to = to * len(frm) trans = string.maketrans(frm, to) if keep is not None: allchars = string.maketrans('', '') delete = allchars.translate(allchars, keep.translate(allchars,delete)) def translate(s): return s.translate(trans, delete) return translate
allchars應該是一個返回的映射表,為什麼還可以調用translate方法,所以它應該是一個str類型,測試如下:
>>> import string >>> map = string.maketrans('123', 'abc') >>> type(map)
在3.X版本中這個方法不能正常通過運行,那麼錯在什麼地方呢,我們看看映射表是什麼類型:
>>> map = str.maketrans('123','abc') >>> type(map)
知道了映射表的類型了,我們就可以對其進行“後期加工”,像上面《Python Cookbook》中的例子一樣,來滿足我們的編碼要求。
上面討論的例子用的字串是ASCII字元組成的,如果是位元組類型,2.X版本中操作是一樣的,3.X中調用bytes或bytearray的函數;若是unicode類型的,2.X需要用unicode的translate方法,注意下面的代碼
>>> print u"hallo".translate({97:u'e'}) hello >>> print u"hallo".translate({'a':u'e'}) hallo >>> print u"hallo".translate({u'a':u'e'}) hallo
結果之所以不一樣,查閱手冊可知unicode的translate方法的映射表也就是字典的鍵必須是unicode的位序數,值可以是unicode的位序數、unicode字串或這None。