利用Python尋找命中註定的另一半, 大家都覺得不可信, 畢竟都還沒看這篇神級教程!

最後更新：2018-06-07 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

標籤：Python 教育職業爬蟲戀愛

既然是Python程式員×××，就要用python程式員的方法。

今天我們的目標是，爬社區的美女~而且，我們又要用到新的姿勢(霧)了~scrapy爬蟲架構~

1scrapy原理

在寫過幾個爬蟲程式之後，我們就知道，利用爬蟲擷取資料大概的步驟：請求網頁，擷取網頁，匹配資訊，下載資料，資料清洗，存入資料庫。

scrapy是一個很有名的爬蟲架構，可以很方便的進行網頁資訊爬取。那麼scrapy到底是如何工作的呢？之前在網上看了不少scrapy入門的教程，大多數入門教程都配有這張圖。

_(:зゝ∠)_也不知道是這張圖實在太經典了，還是程式員們都懶得畫圖，第一次看到這個圖的時候，米醬的心情是這樣的

經過了一番深入的理解，大概知道這幅圖的意思，讓我來舉個栗子(是的，我又要舉奇怪的栗子了)：

想要學習Python嗎？加群：725479218，大量學習資料，以及各種源碼（限前5個）

當我們想吃東西的時候，我們會出門，走到街上，尋找一家想吃的點，然後點餐，服務員再通知廚房去做，最後菜到餐桌上，或者被打包帶走。這就是爬蟲程式在做的事，它要將所有擷取資料需要進行的操作，都寫好。

而scrapy就像一個點餐app一般的存在，在訂餐列表(spiders)選取自己目標餐廳裡想吃的菜(items)，在收貨(pipeline)處寫上自己的收貨地址(儲存方式)，點餐系統(scrapy engine)會根據訂餐情況要求商鋪(Internet)的廚房(download)將菜做好，由於會產生多個外賣取貨訂單(request)，系統會根據派單(schedule)分配外賣小哥從廚房取貨(request)和送貨(response)。說著說著我都餓了。。。。

什麼意思呢？在使用scrapy時，我們只需要設定spiders(想要爬取的內容)，pipeline(資料的清洗，資料的儲存方式)，還有一個middlewares，是各功能間對接時的一些設定，就可以不用操心其他的過程，一切交給scrapy模組來完成。

2建立scrapy工程

安裝scrapy之後，建立一個新項目

用pycharm的人都應該知道怎麼操作！！

我用的是pycharm編譯器，在spiders檔案下建立zhihuxjj.py

3 爬取規則制定(spider)

建立好了項目，讓我們來看一下我們要吃的店和菜…哦不，要爬的網站和資料。

我選用了知乎作為爬取平台，知乎是沒有使用者從1到n的序列id的，每個人可以設定自己的個人首頁id，且為唯一。所以採選了選取一枚種子使用者，爬取他的粉絲，也可以粉絲和粉絲一起爬，考慮到粉絲中有些三無使用者，我僅選擇了爬取粉絲列表，再通過粉絲首頁爬取粉絲的粉絲，如此遞迴。

對於程式的設計，是這樣的。

start url是scrapy中的一個標誌性的值，它用於設定爬蟲程式的開始，也就是從哪裡開始爬，按照設定，從種子使用者個人首頁開始爬便是正義，但是考慮到個人首頁的連結會進行重複使用，所以在這裡我將起始url設成了知乎首頁。

之後就是種子使用者的個人首頁，知乎粉絲多的大V很多，但是關注多的人就比較難發現了，這裡我選擇了知乎的黃繼新，聯合創始人，想必關注了不少優質使用者(???)。

分析一下個人首頁可知，個人首頁由‘https://www.zhihu.com/people/‘ + 使用者id 組成，我們要擷取的資訊是用callback回呼函數(敲黑板！！劃重點！！)的方式設計，這裡一共設計了兩個回呼函數：使用者的關注列表和粉絲的個人資訊。

使用chrome瀏覽器查看的頁面可知擷取關注列表的url，以及粉絲的使用者id。

將滑鼠放在使用者名稱上。

可以獲得個人使用者資訊的url。分析url可知：

so，我們在上一節中建立的zhihuxjj.py檔案中寫入以下代碼。

這裡需要劃重點的是yield的用法，以及item[‘name‘]，將爬取結果賦值給item，就是告訴系統，這是我們要選的菜…啊呸…要爬的目標資料。

4設定其他資訊

在items.py檔案中，按照spider中設定的目標資料item，添加對應的代碼。

在pipeline.py中添加存入資料庫的代碼(資料庫咋用上一篇文章寫了哦~)。

因為使用了pipeline.py，所以我們還需要再setting.py檔案中，將ITEM_PIPELINE注釋解除，這裡起到串連兩個檔案的作用。

好像…還忘了點什麼，對了，忘記設定headers了。通用的設定headers的方法同樣是在setting.py檔案中，將DEFAULTREQUESTHEADERS的代碼注釋狀態取消，並設定類比瀏覽器頭。知乎是要類比登入的，如果使用遊客方式登入，就需要添加authorization，至於這個authorization是如何擷取的，我，就，不，告，訴，你(逃

為了減少伺服器壓力&防止被封，解除DOWNLOADDELAY注釋狀態，這是設定下載延遲，將下載延遲設為3(robots法則裡要求是10，但10實在太慢了_(:зゝ∠)知乎的程式員小哥哥看不見這句話看不見這句話…

寫到這裡你會發現，很多我們需要進行的操作，scrapy都已經寫好了，只需要將注釋去掉，再稍作修改，就可以實現功能了。scrapy架構還有很多功能，可以閱讀官方文檔瞭解。

5運行scrapy檔案

寫好scrapy程式後，我們可以在終端輸入

運行檔案。

但也可以在檔案夾中添加main.py，並添加以下代碼。

然後直接用pycharm運行main.py檔案即可，然後我們就可以愉快的爬知乎使用者啦~(×××姐我來啦~

6查×××

經過了X天的運行，_(:зゝ∠)_爬到了7w條使用者資料，爬取深度5。(這爬取速度讓我覺得有必要上分布式爬蟲了…這個改天再嘮)

有了資料我們就可以選擇，同城市的使用者進行研究了……

先國際慣例的分析一下資料。

在7w使用者中，明顯男性超過了半數，標明自己是女性的使用者只佔了30%左右，還有一部分沒有註明性別，優質的×××姐還是稀缺資源呀~

再來看看×××姐們都在哪個城市。(從7w使用者中篩選出性別女且地址資訊不為空白的使用者)

看來×××姐們還是集中在北上廣深杭的，所以想發現優質×××姐的男孩紙們還是要向一線看齊啊，當然也不排除在二三線的×××姐們沒有標記處自己的地理位置。

emmmmm……這次的分析，就到此為止，你們可以去撩×××姐們了。(逃

7研究×××姐

意不意外？開不開心？這裡還有一章。正所謂，授之以魚，不如授之以漁；撒了心靈雞湯，還得加一隻心靈雞腿；找到了×××姐，我們還要瞭解×××姐…………

讓我再舉個栗子~來研究一個×××姐。(知乎名：動次，已擷取×××姐授權作為樣本。)

讓我們來爬一下她的動態，chrome右鍵檢查翻network這些套路我就不說了，直接將研究目標。

代碼也不貼了，會放在gayhub的，來看一下輸出。

還有！！在關注、贊同和輸出中，都有的詞(ω)。(是不是可以靠美味捕獲×××姐呢……

再來一張劉看山背景的，答題詞雲。

利用Python尋找命中註定的另一半, 大家都覺得不可信, 畢竟都還沒看這篇神級教程!

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More