前言
相信對於每一個編程人員來說,在文本處理的時候,經常會遇到全形半形不一致的問題。於是需要程式能夠快速的在兩者之間互轉。由於全形半形本身存在著映射關係,所以處理起來並不複雜。
具體規則為:
全形字元unicode編碼從65281~65374 (十六進位 0xFF01 ~ 0xFF5E)
半形字元unicode編碼從33~126 (十六進位 0x21~ 0x7E)
空格比較特殊,全形為 12288(0x3000),半形為 32(0x20)
而且除空格外,全形/半形按unicode編碼排序在順序上是對應的(半形 + 65248 = 全形)
所以可以直接通過用+-法來處理非空格資料,對空格單獨處理。
用到的一些函數
chr()
函數用一個範圍在range(256)內的(就是0~255)整數作參數,返回一個對應的字元。
unichr()
跟它一樣,只不過返回的是Unicode字元。
ord()
函數是chr()
函數或unichr()
函數的配對函數,它以一個字元(長度為1的字串)作為參數,返回對應的ASCII數值,或者Unicode數值。
先來列印下映射關係:
for i in xrange(33,127): print i,chr(i),i+65248,unichr(i+65248)
返回結果
33 ! 65281 !34 " 65282 "35 # 65283 #36 $ 65284 $37 % 65285 %38 & 65286 &39 ' 65287 '40 ( 65288 (41 ) 65289 )42 * 65290 *43 + 65291 +44 , 65292 ,45 - 65293 -46 . 65294 .47 / 65295 /48 0 65296 049 1 65297 150 2 65298 251 3 65299 352 4 65300 453 5 65301 554 6 65302 655 7 65303 756 8 65304 857 9 65305 958 : 65306 :59 ; 65307 ;60 < 65308 <61 = 65309 =62 > 65310 >63 ? 65311 ?64 @ 65312 @65 A 65313 A66 B 65314 B67 C 65315 C68 D 65316 D69 E 65317 E70 F 65318 F71 G 65319 G72 H 65320 H73 I 65321 I74 J 65322 J75 K 65323 K76 L 65324 L77 M 65325 M78 N 65326 N79 O 65327 O80 P 65328 P81 Q 65329 Q82 R 65330 R83 S 65331 S84 T 65332 T85 U 65333 U86 V 65334 V87 W 65335 W88 X 65336 X89 Y 65337 Y90 Z 65338 Z91 [ 65339 [92 \ 65340 \93 ] 65341 ]94 ^ 65342 ^95 _ 65343 _96 ` 65344 `97 a 65345 a98 b 65346 b99 c 65347 c100 d 65348 d101 e 65349 e102 f 65350 f103 g 65351 g104 h 65352 h105 i 65353 i106 j 65354 j107 k 65355 k108 l 65356 l109 m 65357 m110 n 65358 n111 o 65359 o112 p 65360 p113 q 65361 q114 r 65362 r115 s 65363 s116 t 65364 t117 u 65365 u118 v 65366 v119 w 65367 w120 x 65368 x121 y 65369 y122 z 65370 z123 { 65371 {124 | 65372 |125 } 65373 }126 ~ 65374 ~
把全形轉成半形:
def full2half(s): n = [] s = s.decode('utf-8') for char in s: num = ord(char) if num == 0x3000: num = 32 elif 0xFF01 <= num <= 0xFF5E: num -= 0xfee0 num = unichr(num) n.append(num)return ''.join(n)
把半形轉成全形:
def half2full(s): n = [] s = s.decode('utf-8') for char in s: num = char(char) if num == 320: num = 0x3000 elif 0x21 <= num <= 0x7E: num += 0xfee0 num = unichr(num) n.append(num)return ''.join(n)
上面的實現方式非常的簡單,但是現實情況下可能並不會把所以的字元統一進行轉換,比如中文文章中我們期望將所有出現的字母和數字全部轉化成半形,而常見標點符號統一使用全形,上面的轉化就不適合了。
解決方案,是自訂字典。
#!/usr/bin/env python# -*- coding: utf-8 -*- FH_SPACE = FHS = ((u" ", u" "),)FH_NUM = FHN = ( (u"0", u"0"), (u"1", u"1"), (u"2", u"2"), (u"3", u"3"), (u"4", u"4"), (u"5", u"5"), (u"6", u"6"), (u"7", u"7"), (u"8", u"8"), (u"9", u"9"),)FH_ALPHA = FHA = ( (u"a", u"a"), (u"b", u"b"), (u"c", u"c"), (u"d", u"d"), (u"e", u"e"), (u"f", u"f"), (u"g", u"g"), (u"h", u"h"), (u"i", u"i"), (u"j", u"j"), (u"k", u"k"), (u"l", u"l"), (u"m", u"m"), (u"n", u"n"), (u"o", u"o"), (u"p", u"p"), (u"q", u"q"), (u"r", u"r"), (u"s", u"s"), (u"t", u"t"), (u"u", u"u"), (u"v", u"v"), (u"w", u"w"), (u"x", u"x"), (u"y", u"y"), (u"z", u"z"), (u"A", u"A"), (u"B", u"B"), (u"C", u"C"), (u"D", u"D"), (u"E", u"E"), (u"F", u"F"), (u"G", u"G"), (u"H", u"H"), (u"I", u"I"), (u"J", u"J"), (u"K", u"K"), (u"L", u"L"), (u"M", u"M"), (u"N", u"N"), (u"O", u"O"), (u"P", u"P"), (u"Q", u"Q"), (u"R", u"R"), (u"S", u"S"), (u"T", u"T"), (u"U", u"U"), (u"V", u"V"), (u"W", u"W"), (u"X", u"X"), (u"Y", u"Y"), (u"Z", u"Z"),)FH_PUNCTUATION = FHP = ( (u".", u"."), (u",", u","), (u"!", u"!"), (u"?", u"?"), (u"”", u'"'), (u"'", u"'"), (u"‘", u"`"), (u"@", u"@"), (u"_", u"_"), (u":", u":"), (u";", u";"), (u"#", u"#"), (u"$", u"$"), (u"%", u"%"), (u"&", u"&"), (u"(", u"("), (u")", u")"), (u"‐", u"-"), (u"=", u"="), (u"*", u"*"), (u"+", u"+"), (u"-", u"-"), (u"/", u"/"), (u"<", u"<"), (u">", u">"), (u"[", u"["), (u"¥", u"\\"), (u"]", u"]"), (u"^", u"^"), (u"{", u"{"), (u"|", u"|"), (u"}", u"}"), (u"~", u"~"),)FH_ASCII = HAC = lambda: ((fr, to) for m in (FH_ALPHA, FH_NUM, FH_PUNCTUATION) for fr, to in m) HF_SPACE = HFS = ((u" ", u" "),)HF_NUM = HFN = lambda: ((h, z) for z, h in FH_NUM)HF_ALPHA = HFA = lambda: ((h, z) for z, h in FH_ALPHA)HF_PUNCTUATION = HFP = lambda: ((h, z) for z, h in FH_PUNCTUATION)HF_ASCII = ZAC = lambda: ((h, z) for z, h in FH_ASCII()) def convert(text, *maps, **ops): """ 全形/半形轉換 args: text: unicode string need to convert maps: conversion maps skip: skip out of character. In a tuple or string return: converted unicode string """ if "skip" in ops: skip = ops["skip"] if isinstance(skip, basestring): skip = tuple(skip) def replace(text, fr, to): return text if fr in skip else text.replace(fr, to) else: def replace(text, fr, to): return text.replace(fr, to) for m in maps: if callable(m): m = m() elif isinstance(m, dict): m = m.items() for fr, to in m: text = replace(text, fr, to) return text if __name__ == '__main__': text = u"成田空港—【JR特急成田エクスプレス號・橫浜行,2站】—東京—【JR新幹線はやぶさ號・新青森行,6站 】—新青森—【JR特急スーパー白鳥號・函館行,4站 】—函館"print convert(text, FH_ASCII, {u"【": u"[", u"】": u"]", u",": u",", u".": u"。", u"?": u"?", u"!": u"!"}, spit=",。?!“”")
特別注意:引號在英語體系中引號是不區分前引號和後引號。
總結
以上就是關於Python實現全形半形字元互轉的方法,希望本文的內容對大家的學習或者工作能帶來一定的協助,如果有疑問大家可以留言交流。