標籤:調用 download elf tin 檢測 實現 資源管理 www font
本篇是介紹在 Anaconda 環境下,建立 Scrapy 爬蟲架構項目的步驟,且介紹比較詳細
Python爬蟲教程-31-建立 Scrapy 爬蟲架構項目
- 首先說一下,本篇是在 Anaconda 環境下,所以如果沒有安裝 Anaconda 請先到官網下載安裝
- Anaconda :https://www.anaconda.com/download/
Scrapy 爬蟲架構項目的建立
- 0.開啟【cmd】
- 1.進入你要使用的 Anaconda 環境
- 5.操作:
- 6.在檔案總管開啟該目錄,就會發現產生了好幾個檔案
- 7.使用 Pycharm 開啟項目所在目錄就可以了
這裡我們就把項目建立好了,分析一下自動產生的檔案的作用
Scrapy 爬蟲架構項目的開發
- 0.使用 Pycharm 開啟項目,:
- 項目的開發的大致流程:
- 1.明確需要爬取的目標/產品:編寫 item.py
- 2.在 spider 目錄下載建立 python 檔案製作爬蟲:
- 地址 spider/xxspider.py 負責分解,提取下載的資料
- 3.儲存內容:pipelines.py
- Pipeline.py 檔案
- 對應 pipelines 檔案
- 爬蟲提取出資料存入 item 後,item 中儲存的資料需要進一步處理,比如清洗,去蟲,儲存等
- Pipeline 需要處理 process_item 函數
- process_item
- spider 提取出來的 item 作為參數傳入,同時傳入的還有 spider
- 此方法必須實現
- 必須返回一個 Item 對象,被丟棄的 item 不會被之後的 pipeline
- _ init _:建構函式
- open_spider(spider):
- close_spider(spider):
- Spider 目錄
- 對應的是檔案夾 spider 下的檔案
- _ init _:初始化爬蟲名稱,start _urls 列表
- start_requests:產生 Requests 對象交給 Scrapy 下載並返回 response
- parse:根據返回的 response 解析出相應的 item,item 自動進入 pipeline:如果需要,解析 url,url自動交給 requests 模組,一直迴圈下去
- start_requests:此方法盡能被調用一次,讀取 start _urls 內容並啟動迴圈過程
- name:設定爬蟲名稱
- start_urls:設定開始第一批爬取的 url
- allow_domains:spider 允許去爬的網域名稱列表
- start_request(self):只被調用一次
- parse:檢測編碼
- log:日誌記錄
- 下一篇文章連結:Python爬蟲教程-32-Scrapy 爬蟲架構項目 Settings.py 介紹
- 拜拜
Python爬蟲教程-31-建立 Scrapy 爬蟲架構項目