自學PYTHON爬蟲階段總結

來源:互聯網
上載者:User

標籤:like   request   影響   nbsp   流程   個人   chrome   mozilla   rom   

自學python爬蟲有大概半個月時間了吧

先是瞭解了一下爬蟲的基本結構和流程

然後學習了各種庫和正則的知識

這裡要特別注意一下,學習正則開始的時候會很難,因為這個玩意根本就不是給人類用的,Regex開始的時候是一個神經科學家發明用來研究人類行為和神經反射的時候的模式所以他是反人類的 

不過到後面會發現有很大的用處,因為正則不只存在與Python一個語言裡面,很多語言裡面都有,所以是一個繞不開的項目。

開始建議用BS4和Scrapy  要不然會嚴重打擊自信心的

爬蟲其實是屬於資料採礦的領域。不過用來入門Python是不錯的選擇

我個人是不建議參加學習班的 因為一個行業最重要的就是自學能力,如果不是因為愛好只是因為莫名的虛榮或者金錢去學習這樣是走不遠的 

算是一個階段性的總結吧

基本的爬蟲算是瞭解了  

以後會開始

多線程

非同步

以及反爬的學習

 

1、要爬取某個頁面的檔案,必須用urllib.request.urlopen開啟頁面的串連,並用read方法讀取頁面的html內容

2、要爬取某些具體內容,必須分析該頁面對應的html代碼,找到需爬取內容所在位置的標籤,利用Regex擷取標籤

3、瀏覽器偽裝:為了防止有些網站拒絕爬蟲,我們需要偽裝成瀏覽器來實現頁面的爬取,即需要添加頭部檔案來偽裝成瀏覽器

header={‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.235‘}

4、規範:爬取的內容盡量寫入到某個檔案,如果直接列印在控制台,影響閱讀效果;

自學PYTHON爬蟲階段總結

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.