Python網路爬蟲之Scrapy常用命令

來源:互聯網
上載者:User

標籤:瞭解   影響   warning   硬體   網頁   檢查   常見   img   速度   

scrapy全域命令

  要想瞭解在scrapy中由哪些全域命令,可以在不進入scrapy爬蟲項目目錄的情況下運行scrapy -h

  

(1) fetch命令

  fetch命令主要用來顯示爬蟲爬取的過程,如果在scrapy項目目錄之外使用該命令,則會調用scrapy預設的爬蟲來進行網頁的爬取,如果在scrapy的某個項目目錄內使用該命令,則會調用該項目中的爬蟲來進行網頁的爬取

  --headers 控制顯示對象的爬蟲爬取網站的頭資訊

  --nolog 控制不顯示日誌資訊

  --logfile==FILE 儲存日誌文字資訊

  --spider=SPIDER 控制使用哪個爬蟲

  --loglevel=LEVEL控制記錄層級

    日誌等級常見值:

      CRITICAL   發生嚴重的錯誤

      ERROR      發生了必須立即處理的錯誤

      WARNING        出現一些警告資訊

      INFO                輸出一些提示資訊

      DEBUG            輸出一些調試資訊,常用於開發階段

(2)runspider命令

  可以實現不依託scrapy的爬蟲項目,直接運行一個爬蟲檔案

  該命令還沒有理解,沒看到parse()函數的列印資訊

(3)setting命令

  查看scrapy對應的配置資訊,如果在項目目錄內使用,查看的是對應項目的配置資訊,如果在項目外使用查看的是scrapy預設配置資訊

(4)shell命令

  shell命令可以啟動scrapy的互動終端,scrapy的互動終端經常在開發以及跳水的時候用到,使用scrapy的互動終端可以實現在不啟動scrapy爬蟲的情況下,對網站響應進行調試

  

  可以看到在執行命令後會出現可以使用的scarpy對象及快捷命令

(5)startproject命令

  用於建立項目

  scrapy startproject firstspider [parm]

(6)version命令

  通過version命令可以直接顯示scrapy的版本相關資訊

(7)view命令

  實現下載某個網頁並用瀏覽器查看的功能

scrapy項目命令(1)bench命令

  使用bench命令可以測試本地硬體的效能,當我們允許scrapy bench的時候,會建立一個本機伺服器並且會以最大的速度爬行,再次為了測試本地硬體的效能,避免過多的因素的影響,所有僅進行串連跟進,不進行內容的處理

  單純就硬體效能來說,顯示每分鐘大約能爬2400個網頁,這是一個參考標準,在實際運行爬蟲項目的時候,會由於各種因素導致速度不同,一般來說,可以根據實際啟動並執行速度與該參考速度進行對比結果,從而對爬蟲項目進行最佳化與改進

(2)genspider命令

  建立爬蟲檔案,可以使用該命令的-l參數來查看當前可以使用的爬蟲模板

  

  使用-t可以基於其中任意一個爬蟲模板來產生一個爬蟲檔案

  

  這樣會在example/spiders/country_test目錄下產生country_test.py檔案

  

(3)check命令

  在scrapy中使用check命令實現對某個爬蟲檔案進行合約(contract)檢查

  

(4)crawl命令

  啟動某個爬蟲

  scrapy crawl country_test --loglevel=DEBUG

(5)list命令

  列出當前可以使用的爬蟲檔案

(6)edit命令

  直接開啟對應編輯器對爬蟲檔案進行編輯

Python網路爬蟲之Scrapy常用命令

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.