python抓取中文網頁亂碼

來源:互聯網
上載者:User

我們經常通過python做採集網頁資料的時候,會碰到一些亂碼問題,今天給大家分享一個解決網頁亂碼,尤其是中文網頁的通用方法。

首頁我們需要安裝chardet模組,這個可以通過easy_install 或者pip來安裝。

安裝完以後我們在控制台上匯入模組,如果正常就可以。

比如我們遇到的一些ISO-8859-2也是可以通過下面的方法解決的。

直接上代碼吧:

import urllib2
import sys
import chardet

req = urllib2.Request("http://www.163.com/")##這裡可以換成http://www.baidu.com,http://www.sohu.com
content = urllib2.urlopen(req).read()
typeEncode = sys.getfilesystemencoding()##系統預設編碼
infoencode = chardet.detect(content).get('encoding','utf-8')##通過第3方模組來自動提取網頁的編碼
html = content.decode(infoencode,'ignore').encode(typeEncode)##先轉換成unicode編碼,然後轉換系統編碼輸出
print html

 通過上面的代碼,相信能夠解決你採集亂碼的問題。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.