標籤:瞭解 影響 warning 硬體 網頁 檢查 常見 img 速度
scrapy全域命令
要想瞭解在scrapy中由哪些全域命令,可以在不進入scrapy爬蟲項目目錄的情況下運行scrapy -h
(1) fetch命令
fetch命令主要用來顯示爬蟲爬取的過程,如果在scrapy項目目錄之外使用該命令,則會調用scrapy預設的爬蟲來進行網頁的爬取,如果在scrapy的某個項目目錄內使用該命令,則會調用該項目中的爬蟲來進行網頁的爬取
--headers 控制顯示對象的爬蟲爬取網站的頭資訊
--nolog 控制不顯示日誌資訊
--logfile==FILE 儲存日誌文字資訊
--spider=SPIDER 控制使用哪個爬蟲
--loglevel=LEVEL控制記錄層級
日誌等級常見值:
CRITICAL 發生嚴重的錯誤
ERROR 發生了必須立即處理的錯誤
WARNING 出現一些警告資訊
INFO 輸出一些提示資訊
DEBUG 輸出一些調試資訊,常用於開發階段
(2)runspider命令
可以實現不依託scrapy的爬蟲項目,直接運行一個爬蟲檔案
該命令還沒有理解,沒看到parse()函數的列印資訊
(3)setting命令
查看scrapy對應的配置資訊,如果在項目目錄內使用,查看的是對應項目的配置資訊,如果在項目外使用查看的是scrapy預設配置資訊
(4)shell命令
shell命令可以啟動scrapy的互動終端,scrapy的互動終端經常在開發以及跳水的時候用到,使用scrapy的互動終端可以實現在不啟動scrapy爬蟲的情況下,對網站響應進行調試
可以看到在執行命令後會出現可以使用的scarpy對象及快捷命令
(5)startproject命令
用於建立項目
scrapy startproject firstspider [parm]
(6)version命令
通過version命令可以直接顯示scrapy的版本相關資訊
(7)view命令
實現下載某個網頁並用瀏覽器查看的功能
scrapy項目命令(1)bench命令
使用bench命令可以測試本地硬體的效能,當我們允許scrapy bench的時候,會建立一個本機伺服器並且會以最大的速度爬行,再次為了測試本地硬體的效能,避免過多的因素的影響,所有僅進行串連跟進,不進行內容的處理
單純就硬體效能來說,顯示每分鐘大約能爬2400個網頁,這是一個參考標準,在實際運行爬蟲項目的時候,會由於各種因素導致速度不同,一般來說,可以根據實際啟動並執行速度與該參考速度進行對比結果,從而對爬蟲項目進行最佳化與改進
(2)genspider命令
建立爬蟲檔案,可以使用該命令的-l參數來查看當前可以使用的爬蟲模板
使用-t可以基於其中任意一個爬蟲模板來產生一個爬蟲檔案
這樣會在example/spiders/country_test目錄下產生country_test.py檔案
(3)check命令
在scrapy中使用check命令實現對某個爬蟲檔案進行合約(contract)檢查
(4)crawl命令
啟動某個爬蟲
scrapy crawl country_test --loglevel=DEBUG
(5)list命令
列出當前可以使用的爬蟲檔案
(6)edit命令
直接開啟對應編輯器對爬蟲檔案進行編輯
Python網路爬蟲之Scrapy常用命令