Python 入門網路爬蟲之精華版

最後更新：2017-07-19 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

標籤：新聞 text 常見 request 匹配 project git python多進程 sse

Python 入門網路爬蟲之精華版

轉載寧哥的小站，總結的不錯

Python學習網路爬蟲主要分3個大的版塊：抓取，分析，儲存

另外，比較常用的爬蟲架構Scrapy，這裡最後也詳細介紹一下。

首先列舉一下本人總結的相關文章，這些覆蓋了入門網路爬蟲需要的基本概念和技巧：寧哥的小站-網路爬蟲

當我們在瀏覽器中輸入一個url後斷行符號，後台會發生什嗎？比如說你輸入http://www.lining0806.com/，你就會看到寧哥的小站首頁。

簡單來說這段過程發生了以下四個步驟：

尋找網域名稱對應的IP地址。
向IP對應的伺服器發送請求。
伺服器響應請求，發回網頁內容。
瀏覽器解析網頁內容。

網路爬蟲要做的，簡單來說，就是實現瀏覽器的功能。通過指定url，直接返回給使用者所需要的資料，而不需要一步步人工去操縱瀏覽器擷取。

抓取

這一步，你要明確要得到的內容是什嗎？是HTML源碼，還是Json格式的字串等。

1. 最基本的抓取

抓取大多數情況屬於get請求，即直接從對方伺服器上擷取資料。

首先，python中內建urllib及urllib2這兩個模組，基本上能滿足一般的頁面抓取。另外，requests也是非常有用的包，與此類似的，還有httplib2等等。

Requests：    import requests    response = requests.get(url)    content = requests.get(url).content    print "response headers:", response.headers    print "content:", contentUrllib2：    import urllib2    response = urllib2.urlopen(url)    content = urllib2.urlopen(url).read()    print "response headers:", response.headers    print "content:", contentHttplib2：    import httplib2    http = httplib2.Http()    response_headers, content = http.request(url, ‘GET‘)    print "response headers:", response_headers    print "content:", content

此外，對於帶有查詢欄位的url，get請求一般會將來請求的資料附在url之後，以?分割url和傳輸資料，多個參數用&串連。

data = {‘data1‘:‘XXXXX‘, ‘data2‘:‘XXXXX‘}Requests：data為dict，json    import requests    response = requests.get(url=url, params=data)Urllib2：data為string    import urllib, urllib2        data = urllib.urlencode(data)    full_url = url+‘?‘+data    response = urllib2.urlopen(full_url)

相關參考：網易新聞熱門排行榜抓取回顧

參考項目：網路爬蟲之最基本的爬蟲：爬取網易新聞熱門排行榜

2. 對於登陸情況的處理

2.1 使用表單登陸

這種情況屬於post請求，即先向伺服器發送表單資料，伺服器再將返回的cookie存入本地。

data = {‘data1‘:‘XXXXX‘, ‘data2‘:‘XXXXX‘}Requests：data為dict，json    import requests    response = requests.post(url=url, data=data)Urllib2：data為string    import urllib, urllib2        data = urllib.urlencode(data)    req = urllib2.Request(url=url, data=data)    response = urllib2.urlopen(req)

2.2 使用cookie登陸

使用cookie登陸，伺服器會認為你是一個已登陸的使用者，所以就會返回給你一個已登陸的內容。因此，需要驗證碼的情況可以使用帶驗證碼登陸的cookie解決。

import requests         requests_session = requests.session() response = requests_session.post(url=url_login, data=data)

若存在驗證碼，此時採用response = requests_session.post(url=url_login, data=data)是不行的，做法應該如下：

response_captcha = requests_session.get(url=url_login, cookies=cookies)response1 = requests.get(url_login) # 未登陸response2 = requests_session.get(url_login) # 已登陸，因為之前拿到了Response Cookie！response3 = requests_session.get(url_results) # 已登陸，因為之前拿到了Response Cookie！

相關參考：網路爬蟲-驗證碼登陸

參考項目：網路爬蟲之使用者名稱密碼及驗證碼登陸：爬取知乎網站

3. 對於反爬蟲機制的處理

3.1 使用代理

適用情況：限制IP地址情況，也可解決由於“頻繁點擊”而需要輸入驗證碼登陸的情況。

這種情況最好的辦法就是維護一個代理IP池，網上有很多免費的代理IP，良莠不齊，可以通過篩選找到能用的。對於“頻繁點擊”的情況，我們還可以通過限制爬蟲訪問網站的頻率來避免被網站禁掉。

proxies = {‘http‘:‘http://XX.XX.XX.XX:XXXX‘}Requests：    import requests    response = requests.get(url=url, proxies=proxies)Urllib2：    import urllib2    proxy_support = urllib2.ProxyHandler(proxies)    opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler)    urllib2.install_opener(opener) # 安裝opener，此後調用urlopen()時都會使用安裝過的opener對象    response = urllib2.urlopen(url)

3.2 時間設定

適用情況：限制頻率情況。

Requests，Urllib2都可以使用time庫的sleep()函數：

import timetime.sleep(1)

3.3 偽裝成瀏覽器，或者反“反盜鏈”

有些網站會檢查你是不是真的瀏覽器訪問，還是機器自動訪問的。這種情況，加上User-Agent，表明你是瀏覽器訪問即可。有時還會檢查是否帶Referer資訊還會檢查你的Referer是否合法，一般再加上Referer。

headers = {‘User-Agent‘:‘XXXXX‘} # 偽裝成瀏覽器訪問，適用於拒絕爬蟲的網站headers = {‘Referer‘:‘XXXXX‘}headers = {‘User-Agent‘:‘XXXXX‘, ‘Referer‘:‘XXXXX‘}Requests：    response = requests.get(url=url, headers=headers)Urllib2：    import urllib, urllib2       req = urllib2.Request(url=url, headers=headers)    response = urllib2.urlopen(req)

4. 對於斷線重連

不多說。

def multi_session(session, *arg):    retryTimes = 20    while retryTimes>0:        try:            return session.post(*arg)        except:            print ‘.‘,            retryTimes -= 1

或者

def multi_open(opener, *arg):    retryTimes = 20    while retryTimes>0:        try:            return opener.open(*arg)        except:            print ‘.‘,            retryTimes -= 1

這樣我們就可以使用multi_session或multi_open對爬蟲抓取的session或opener進行保持。

5. 多進程抓取

這裡針對華爾街見聞進行並行抓取的實驗對比：Python多進程抓取與 Java單線程和多線程抓取

相關參考：關於Python和Java的多進程多線程計算方法對比

6. 對於Ajax請求的處理

對於“載入更多”情況，使用Ajax來傳輸很多資料。

它的工作原理是：從網頁的url載入網頁的原始碼之後，會在瀏覽器裡執行JavaScript程式。這些程式會載入更多的內容，“填充”到網頁裡。這就是為什麼如果你直接去耙梳頁本身的url，你會找不到頁面的實際內容。

這裡，若使用Google Chrome分析”請求“對應的連結(方法：右鍵→審查元素→Network→清空，點擊”載入更多“，出現對應的GET連結尋找Type為text/html的，點擊，查看get參數或者複製Request URL)，迴圈過程。

如果“請求”之前有頁面，依據上一步的網址進行分析推導第1頁。以此類推，抓取抓Ajax地址的資料。
對返回的json格式資料(str)進行正則匹配。json格式資料中，需從’\uxxxx’形式的unicode_escape編碼轉換成u’\uxxxx’的unicode編碼。

7. 自動化測試載入器Selenium

Selenium是一款自動化測試載入器。它能實現操縱瀏覽器，包括輸入鍵台、滑鼠點擊、擷取元素、頁面切換等一系列操作。總之，凡是瀏覽器能做的事，Selenium都能夠做到。

這裡列出在給定城市列表後，使用selenium來動態抓取去哪兒網的票價資訊的代碼。

參考項目：網路爬蟲之Selenium使用代理登陸：爬取去哪兒網站

8. 驗證碼識別

對於網站有驗證碼的情況，我們有三種辦法：

使用代理，更新IP。
使用cookie登陸。
驗證碼識別。

使用代理和使用cookie登陸之前已經講過，下面講一下驗證碼識別。

可以利用開源的Tesseract-OCR系統進行驗證碼圖片的下載及識別，將識別的字元傳到爬蟲系統進行類比登陸。當然也可以將驗證碼圖片上傳到打碼平台上進行識別。如果不成功，可以再次更新驗證碼識別，直到成功為止。

參考項目：驗證碼識別項目第一版：Captcha1

爬取有兩個需要注意的問題：

如何監控一系列網站的更新情況，也就是說，如何進行增量式爬取？
對于海量資料，如何?分布式爬取？

分析

抓取之後就是對抓取的內容進行分析，你需要什麼內容，就從中提煉出相關的內容來。

常見的分析工具有Regex，BeautifulSoup，lxml等等。

儲存

分析出我們需要的內容之後，接下來就是儲存了。

我們可以選擇存入文字檔，也可以選擇存入MySQL或MongoDB資料庫等。

儲存有兩個需要注意的問題：

如何進行網頁去重？
內容以什麼形式儲存？

Scrapy

Scrapy是一個基於Twisted的開源的Python爬蟲架構，在工業中應用非常廣泛。

相關內容可以參考基於Scrapy網路爬蟲的搭建，同時給出這篇文章介紹的搜尋爬取的項目代碼，給大家作為學習參考。

參考項目：使用Scrapy或Requests遞迴抓取搜尋結果

Python 入門網路爬蟲之精華版

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More

Python 入門網路爬蟲之精華版

聯繫我們

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support