python的中文處理還是比較麻煩的,utf-8的字串的長度是1-6個字元,一不小心就會從中截斷,出現所謂的亂碼。下面這個函數提供了,從一段utf-8編碼的字串中,截取固定長度的字串。ord(char)將字元轉換稱整數,根據utf-8的編碼規則,確定每個utf-8的字佔用幾個字元,從而避免截斷的情況。
參數:
string :utf-8字串,如果是別的字元編碼,請先轉換成utf-8(推薦所有字串和檔案都用utf-8格式的)
length :字元數(注意不是中文字的個數)
題外話:
python的字元編碼,有幾個函數unicode(str,'charset'),str.decode('charset'),str.encode('charset')。
舉個例子,你要將gb2312轉為gbk,如下
str = unicode(str,'gb2312') #轉為unicode
str.encode('gbk') #轉為gbk
實際上,linux系統中,你可以使用iconv -f gb2312 -t gbk sourcefile > targetfile來進行轉換。
def subString(string,length):<br /> if length >= len(string):<br /> return string<br /> result = ''<br /> i = 0<br /> p = 0<br /> while True:<br /> ch = ord(string[i])<br /> #1111110x<br /> if ch >= 252:<br /> p = p + 6<br /> #111110xx<br /> elif ch >= 248:<br /> p = p + 5<br /> #11110xxx<br /> elif ch >= 240:<br /> p = p + 4<br /> #1110xxxx<br /> elif ch >= 224:<br /> p = p + 3<br /> #110xxxxx<br /> elif ch >= 192:<br /> p = p + 2<br /> else:<br /> p = p + 1 </p><p> if p >= length:<br /> break;<br /> else:<br /> i = p<br /> return string[0:i]
後記:
後來,我發現一種更為簡單的方法
str = '中國人'
str.decode('utf-8')[0:1].encode('utf-8')
先轉換成unicode,再取子串,然後轉換成utf-8