python截取中文字串

來源:互聯網
上載者:User

python的中文處理還是比較麻煩的,utf-8的字串的長度是1-6個字元,一不小心就會從中截斷,出現所謂的亂碼。下面這個函數提供了,從一段utf-8編碼的字串中,截取固定長度的字串。ord(char)將字元轉換稱整數,根據utf-8的編碼規則,確定每個utf-8的字佔用幾個字元,從而避免截斷的情況。
參數:
  string  :utf-8字串,如果是別的字元編碼,請先轉換成utf-8(推薦所有字串和檔案都用utf-8格式的)
  length :字元數(注意不是中文字的個數)

題外話:
python的字元編碼,有幾個函數unicode(str,'charset'),str.decode('charset'),str.encode('charset')。
舉個例子,你要將gb2312轉為gbk,如下
str = unicode(str,'gb2312') #轉為unicode
str.encode('gbk')                #轉為gbk

實際上,linux系統中,你可以使用iconv -f gb2312 -t gbk sourcefile > targetfile來進行轉換。

def subString(string,length):<br /> if length >= len(string):<br /> return string<br /> result = ''<br /> i = 0<br /> p = 0<br /> while True:<br /> ch = ord(string[i])<br /> #1111110x<br /> if ch >= 252:<br /> p = p + 6<br /> #111110xx<br /> elif ch >= 248:<br /> p = p + 5<br /> #11110xxx<br /> elif ch >= 240:<br /> p = p + 4<br /> #1110xxxx<br /> elif ch >= 224:<br /> p = p + 3<br /> #110xxxxx<br /> elif ch >= 192:<br /> p = p + 2<br /> else:<br /> p = p + 1 </p><p> if p >= length:<br /> break;<br /> else:<br /> i = p<br /> return string[0:i]

 

 

後記:

後來,我發現一種更為簡單的方法

str = '中國人'

str.decode('utf-8')[0:1].encode('utf-8')

先轉換成unicode,再取子串,然後轉換成utf-8

 

 

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.