用Python寫網路爬蟲-雲圖

來源:互聯網
上載者:User

標籤:sunday   python   建立   抽取   url   開發   sni   頁面   ipa   

《用Python寫網路爬蟲》作為使用Python來爬取網路資料的傑出指南,講解了從靜態頁面爬取資料的方法以及使用緩衝來管理伺服器負載的方法。此外,本書還介紹了如何使用AJAX URL和Firebug擴充來爬取資料,以及有關爬取技術的更多真相,比如使用瀏覽器渲染、管理cookie、通過提交表單從受驗證碼保護的複雜網站中抽取資料等。本書使用Scrapy建立了一個進階網路爬蟲,並對一些真實的網站進行了爬取。

《用Python寫網路爬蟲》介紹了如下內容:

通過跟蹤連結來爬取網站;
使用lxml從頁面中抽取資料;
構建線程爬蟲來並行爬取頁面;
將下載的內容進行緩衝,以降低頻寬消耗;
解析依賴於JavaScript的網站;
與表單和會話進行互動;
解決受保護頁面的驗證碼問題;
對AJAX調用進行逆向工程;
使用Scrapy建立進階爬蟲。

本書讀者對象
本書是為想要構建可靠的資料爬取解決方案的開發人員寫作的,本書假定讀者具有一定的Python編程經驗。當然,具備其他程式設計語言開發經驗的讀者也可以閱讀本書,並理解書中涉及的概念和原理。

用Python寫網路爬蟲-雲圖

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.