[Python]網路爬蟲（12）：爬蟲架構Scrapy的第一個爬蟲樣本入門教程_

[Python]網路爬蟲（12）：爬蟲架構Scrapy的第一個爬蟲樣本入門教程__Python

最後更新：2018-07-29 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

轉載自：http://blog.csdn.net/pleasecallmewhy/article/details/19642329

（建議大家多看看官網教程：教程地址）

我們使用dmoz.org這個網站來作為小抓抓一展身手的對象。

首先先要回答一個問題。

問：把網站裝進爬蟲裡，總共分幾步。

答案很簡單，四步：建立項目 (Project)：建立一個新的爬蟲項目明確目標（Items）：明確你想要抓取的目標製作爬蟲（Spider）：製作爬蟲開始爬取網頁儲存內容（Pipeline）：設計管道儲存爬取內容

好的，基本流程既然確定了，那接下來就一步一步的完成就可以了。

1.建立項目（Project）

在空目錄下按住Shift鍵右擊，選擇“在此處開啟命令視窗”，輸入一下命令：

[plain] view plain copy scrapy startproject tutorial
其中，tutorial為項目名稱。

可以看到將會建立一個tutorial檔案夾，目錄結構如下：

[plain] view plain copy tutorial/ scrapy.cfg tutorial/ __init__.py items.py pipelines.py settings.py spiders/ __init__.py ...

下面來簡單介紹一下各個檔案的作用： scrapy.cfg：項目的設定檔
tutorial/：項目的Python模組，將會從這裡引用代碼 tutorial/items.py：項目的items檔案 tutorial/pipelines.py：項目的pipelines檔案 tutorial/settings.py：項目的設定檔案 tutorial/spiders/：儲存爬蟲的目錄

2.明確目標（Item）

在Scrapy中，items是用來載入抓取內容的容器，有點像Python中的Dic，也就是字典，但是提供了一些額外的保護減少錯誤。

一般來說，item可以用scrapy.item.Item類來建立，並且用scrapy.item.Field對象來定義屬性（可以理解成類似於ORM的映射關係）。

接下來，我們開始來構建item模型（model）。

首先，我們想要的內容有：名稱（name）連結（url）描述（description）

修改tutorial目錄下的items.py檔案，在原本的class後面添加我們自己的class。

因為要抓dmoz.org網站的內容，所以我們可以將其命名為DmozItem：

[python] view plain copy # Define here the models for your scraped items # # See documentation in: # http://doc.scrapy.org/en/latest/topics/items.html from scrapy.item import Item, Field class TutorialItem(Item): # define the fields for your item here like: # name = Field() pass class DmozItem(Item): title = Field() link = Field() desc = Field()

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More

[Python]網路爬蟲（12）：爬蟲架構Scrapy的第一個爬蟲樣本入門教程__Python

聯繫我們

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support