Python爬蟲教程-34-分布式爬蟲介紹

最後更新：2018-09-06 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

標籤：網站傳輸速率分享架構就是 www mysq mongod 硬碟

分布式爬蟲在實際應用中還算是多的，本篇簡單介紹一下分布式爬蟲
什麼是分布式爬蟲
分布式爬蟲就是多台電腦上都安裝爬蟲程式，重點是聯合採集。單機爬蟲就是只在一台電腦上的爬蟲。
其實搜尋引擎都是爬蟲，負責從世界各地的網站上爬取內容，當你搜尋關鍵詞時就把相關的內容展示給你，只不過他們那都是灰常大的爬蟲，爬的內容量也超乎想象，也就無法再用單機爬蟲去實現，而是使用分布式了，一台伺服器不行，我來1000台。我這麼多分布在各地的伺服器都是為了完成爬蟲工作，彼此得通力協作才行啊，於是就有了分布式爬蟲
單機爬蟲的問題：
- 一台電腦的效率問題
- IO 的輸送量，傳輸速率也有限
多爬蟲問題
- 多爬蟲要實現資料共用
  - 比如說一個爬取了某個網站，下載了哪些內容，其他爬蟲要知道，以避免重複爬取等很多問題，所以要實現資料共用
- 在空間上不同的多台機器，可以成為分布式
多爬蟲條件：
- 需要共用隊列
- 去重，讓多個爬蟲不爬取其他爬蟲爬取過的爬蟲
理解分布式爬蟲：
- 假設上萬的 url 需要爬取，有 100 多個爬蟲，分布在全國不同的城市
- url 被分給不同的爬蟲，但是不同爬蟲的效率又是不一樣的，所以說共用隊列，共用資料，讓效率高的爬蟲多去做任務，而不是等著效率低的爬蟲
Redis
- Redis 是完全開源免費的，遵守BSD協議，是一個高效能的 key-value 資料庫
- 記憶體資料庫，資料存放在記憶體
- 同時可以落地儲存到硬碟
- 可以去重
- 可以把 Redis 理解成一共 dict，set，list 的集合體
- Redis 可以對儲存的內容進行生命週期
- Redis 教程：Redis 教程 - 菜鳥教程
內容儲存資料庫
- MongoDB，運行在記憶體，資料儲存在硬碟
- MySQL
- 等等

安裝 scrapy_redis

1.開啟【cmd】
2.進入使用的 Anaconda 環境
3.使用 pip 安裝
4.操作
分布式爬蟲的結構

主從分布式爬蟲

所謂主從模式，就是由一台伺服器充當 master，若干台伺服器充當 slave，master 負責管理所有串連上來的 slave，包括管理 slave 串連、任務調度與分發、結果回收並匯總等；每個 slave 只需要從 master 那裡領取任務並獨自完成任務最後上傳結果即可，期間不需要與其他 slave 進行交流。這種方式簡單易於管理，但是很明顯 master 需要與所有 slave 進行交流，那麼 master 的效能就成了制約整個系統的瓶頸，特別是當串連上的slave數量龐大的時候，很容易導致整個爬蟲系統效能下降
主從分布式爬蟲結構圖：

這是經典的主從分布式爬蟲結構圖，圖中的控制節點ControlNode就是上面提到的master，爬蟲節點SpiderNode就是上面提到的slave。下面這張圖展示了爬蟲節點slave的執行任務
控制節點執行流程圖：
這兩張圖很明了地介紹了整個爬蟲架構，我們在這裡梳理一下：
1.整個分布式爬蟲系統由兩部分組成：master控制節點和slave爬蟲節點
2.master控制節點負責：slave節點任務調度、url管理、結果處理
3.slave爬蟲節點負責：本節點爬蟲調度、HTML下載管理、HTML內容解析管理
4.系統工作流程：master將任務（未爬取的url）分發下去，slave通過master的URL管理器領取任務（url）並獨自完成對應任務（url）的HTML內容下載、內容解析，解析出來的內容包含目標資料和新的url，這個工作完成後slave將結果（目標資料+新url）提交給master的資料提取進程（屬於master的結果處理），該進程完成兩個任務：提取出新的url交於url管理器、提取目標資料交於資料存放區進程，master的url管理進程收到url後進行驗證（是否已爬取過）並處理（未爬取的添加進待爬url集合，爬過的添加進已爬url集合），然後slave迴圈從url管理器擷取任務、執行任務、提交結果......
本篇就介紹到這裡了，拜拜

本筆記不允許任何個人和組織轉載

Python爬蟲教程-34-分布式爬蟲介紹

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More