標籤:ide site nbsp code pipe items 分享圖片 pipeline install
Scrapy
Scrapy 是一個為了爬取網站資料,提取結構性資料而編寫的應用程式框架。 其可以應用在資料採礦,資訊處理或儲存曆史資料等一系列的程式中。
其最初是為了頁面抓取 (更確切來說, 網路抓取 )所設計的, 也可以應用在擷取API所返回的資料(例如 Amazon Associates Web Services ) 或者通用的網路爬蟲。Scrapy用途廣泛,可以用於資料採礦、監測和自動化測試。
下面是Scrapy的架構,包括組件以及在系統中發生的資料流的概覽(綠色箭頭所示)。
資料流
Scrapy中的資料流由執行引擎控制,其過程如下:
Scarpy的安裝
1 安裝: 2 Linux/mac 3 - pip3 install scrapy 4 Windows: 5 - 安裝twsited 6 a. pip3 install wheel 7 b. 下載twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 8 c. 進入下載目錄,執行 pip3 install Twisted-xxxxx.whl 9 - 安裝scrapy 10 d. pip3 install scrapy -i http://pypi.douban.com/simple --trusted-host pypi.douban.com11 - 安裝pywin3212 e. pip3 install pywin32 -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
Scarpy的基本使用
建立項目:
scrapy startproject tutorial#該命令將會建立一個新的Scarpy項目
得到:
tutorial/ scrapy.cfg # 項目的設定檔 tutorial/ # 該項目的python模組。之後您將在此加入代碼 __init__.py items.py # 項目中的item檔案 pipelines.py # 項目中的pipelines檔案 settings.py # 項目的設定檔案 spiders/ # 放置spider代碼的目錄 __init__.py
python之路 -- 爬蟲 -- Scrapy入門