Python資訊抽取之亂碼解決

來源:互聯網
上載者:User

  俺希望大家能多多指教,有什麼錯誤或者不同意見請聯絡我

  就事論事,直說自己遇到的情況,和我不一樣的路過吧,一樣的就看看吧

  資訊抓取,用python,beautifulSoup,lxml,re,urllib2,urllib2去擷取想要抽取的頁面內容,然後使用lxml或者beautifulSoup進行解析,插入mysql 具體的內容,好了貌似很簡單很easy的樣子,可是裡面的噁心之處就來了,第一,國內開發網站的人在指定網站編碼或者是儲存網站源碼的時候並沒有考慮什麼編碼,反正一句話,一個網站即使你用工具查看或者查看源碼頭資訊查看到他們的源碼是utf-8,或者GBK之類的,也別信,哎,什麼東西信了就遭殃了,即<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />

  以下給出一些流程:(具體各個庫不是我這裡向說的哦)

  import urllib2

   import chardet

  html = urllib2.urlopen("某網站")

  print chardet.detect(html) #這裡會輸出一個字典{'a':0.99999,'encoding':'utf-8'}

  好,這整個html的編碼都知道,該插入以utf-8建立的mysql資料庫了吧,但是我就在插入的時候發生錯誤了,因為我使用lxml以後的字串不是utf-8,而是Big5(繁體字編碼),還有各種未知編碼EUC-JP(日本語編碼),OK,我採取了unicode方法,先對這個欄位進行解碼,在進行編碼

if chardet.detect(name)['encoding'] == 'GB2312':
  name = unicode(name,'GB2312','ignore').encode('utf-8','ignore')
elif chardet.detect(name)['encoding'] == 'Big5':
name = unicode(name,'Big5','ignore').encode('utf-8','ignore')
elif chardet.detect(name)['encoding'] == 'ascii':
name = unicode(name,'ascii','ignore').encode('utf-8','ignore')
elif chardet.detect(name)['encoding'] == 'GBK':
name = unicode(name,'GBK','ignore').encode('utf-8','ignore')
elif chardet.detect(name)['encoding'] == 'EUC-JP':
name = unicode(name,'EUC-JP','ignore').encode('utf-8','ignore')
else:
name = '未知'

能有什麼萬用的方法沒


相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.