爬蟲&問題解決&思考

來源:互聯網
上載者:User
  最近剛接觸python,找點小任務來練練手,希望自己在實踐中不斷的鍛煉自己解決問題的能力。這個小爬蟲來自慕課網的一門課程,我在這裡記錄的是自己學習的過程中遇到的問題和解決方案以及爬蟲之外的思考。

  這次的小任務就是寫一個小爬蟲。為啥選這個來練手呢,最最重要的原因就是大資料太熱了,就像武漢的現在的天氣。資料之於”大資料“,就好比武器之於戰士,磚瓦之於高樓。沒有了資料,”大資料“就是空中閣樓,根本沒法落地,應用於實際。資料怎麼來呢?兩種途徑,一個是自取,一個他取。自取不必多說,另外一種就是他取,這個“他”就是指的互連網。

  首先要明白爬蟲:一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼(來自百度百科)。顧名思義,那就是要訪問頁面,然後將頁面中的內容儲存下來,然後從儲存下來的頁面中篩選出你感興趣的內容,再把它另外存放起來。實際生活中,這種事我們經常幹:我們在一個無聊的下午,在瀏覽器裡輸入一段地址進行頁面訪問,然後遇到感興趣的文章或者段落,選中它,然後複製粘貼到一個word文檔裡。如果我們把以上對一個頁面做的事,變成對成百萬上千萬的頁面也這樣做,那你的資料就會越來越大,我們把這個過程稱之為“資料擷取”。

  爬蟲的優勢就在於:自動化,批量化。這裡就會有一個誤會,在我還沒接觸爬蟲之前,我以為爬蟲可以爬取我“看不到”的東西,後來才明白爬蟲是用來爬取我“看不完”的東西。

  下面是這個爬蟲的架構和爬行流程

  

  

  

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.