標籤:scrapy
本次安裝使用的系統內容是windows xp。以下給出具體步驟。我想如果照做一定能夠成功哦。
1.安裝python2.6.這裡選擇的是python2.6,為什麼選擇這個版本,
首先,scrapy官網上明確寫出:requirements:
Python 2.5, 2.6, 2.7 (3.x is not yet supported), 即目前只支援python2.5,2.6,2.7.3以上版本的python還不支援.而本人在從前使用scrapy開發的過程種發現2.5仍然又某些bug,具體的就暫時不說了。http://www.codepub.com/software/Python-12776.html 由於python官網偶爾打不開(打不開我想你懂的!),所以給了個國內的下載連結,這個連結也又可能又一天不能使用。所以需要同學們自己下了。安裝python,解壓後得到右邊表徵圖,雙擊安裝,幾乎不用設定就能成功,也就是說在這裡如果你python環境都不會安裝的話,就沒必要在看後面的了,所以python的安裝我真的想偷懶了。不過還是要說環境變數設定上,在我的電腦-》進階環境變數裡的path種設定剛才我安裝的pyton的根檔案目錄,這裡將C:\Python26加入到環境變數:,到這裡安裝python結束,在cmd模式下輸入執行python,產生下面的類似的畫面表示python安裝成功.
2.按照python官網準備安裝twisted.
twisted的安裝方法,安裝twisted先需要zope.interface,PyopenSSL,這2個第三方包。而通過twisted官網上,我們可以看見下載的都是zope.interface,PyopenSSL等都是egg檔案,那麼在這裡我們就先需要setuptools工具.
1.在這裡下載:http://pypi.python.org/packages/2.6/s/setuptools/setuptools-0.6c11.win32-py2.6.exe 這些我給出的連結只是我當前找到的我能使用的,加入你不好使,可以嘗試換一個,秉承一個原則是即是setuptools工具又是對於py2.6的。,雙擊這個表徵圖執行。那麼執行後在python根目錄下的scripts檔案夾裡就會有easy_install.py等檔案了,都帶有easy_install字眼。easy_install工具安裝完成。
2.zope_interface的安裝.通過twised的下載頁面:http://twistedmatrix.com/trac/wiki/Downloads 點擊進行zope.interface,進入到http://pypi.python.org/pypi/zope.interface#download , 選擇符合當前環境的可供下載的egg,這裡我們選擇zope.interface-3.6.3-py2.6-win32.egg(md5),下載後是這樣的一個檔案,這時候把這個egg檔案拷貝進入剛才我們說道的python根目錄下的scripts目錄,同easy_installs等檔案一個目錄位置。然後進入cmd模式,在cmd模式下進入這個script目錄,執行easy_install.py egg檔案名稱,執行安裝這個egg檔案。
這裡檢查zope.interface是否安裝成功,,在python環境中執行import zope.interface,加入不報錯誤,那麼說明zope.interface安裝正確。
3.同上,執行安裝PyOpenSSL.在http://pypi.python.org/pypi/pyOpenSSL 這裡,有這些版本的pyOpenSSL供你選擇。在這裡我們選擇pyOpenSSL-0.12-py2.6-win32-egg(md5),下載得到的egg檔案,按剛才安裝zope.interface的方法,在安裝pyOpenSSL,先將下載到的pyOpenSSL,拷貝到scripts檔案夾中,然後進入到cmd模式下,在cmd模式中進入到對應的scripts檔案夾下,執行easy_install.exe pyOpenSSL-0.12-py2.6-win-amd64.egg ,進行安裝。為
在執行驗證是否安裝成功:在python環境中,執行import OpenSSL,查看是否能正常執行在·匯入。加入不報一場或錯誤,則表示安裝正確。
4.安裝twisted.回到twisted的下載連結:http://twistedmatrix.com/trac/wiki/Downloads,因為我們這裡需要的是python2.6的對應的twisted版本。這裡我們選擇了第二個的exe版本。下載後雙擊就能安裝.安裝過程是自動執行的。所以也就不做過多說明,又可能發生的錯誤是版本對應不一致,是因為你沒有選擇當前和你python對應的版本的twisted.到這裡twisted安裝完成,但是具體是否還有問題,我們不能急於的下結論,因為當前的支援包已經有4種了,分別是setuptools,zope.interface,pyOpenSSL,twisted,而在twisted中不是還有一個 PyCrypto 2.0.1 for Python 2.5 嗎?我們並沒有理他,我在這裡因為是使用了python2.6版本,所以先暫時不理他,但是能完全不理他嗎?因為我們並不確定這個包起到的作用,或者,在python.26裡,或者在對應於python26版本的twisted是否存在PyCrypto 2.0.1.或者是替代他的作用的包。所以只能說暫時,到時候在實際開發過程中如果有任何問題在考慮之。
3.按照scrapy官網,安裝lxml.在scrapy 的http://doc.scrapy.org/intro/install.html#intro-install最下面的一段又關windows安裝的情況。到這裡點擊關於lxml的選項,進入:http://users.skynet.be/sbi/libxml-python/ ,在這裡我們選擇了:第二項,又libxml for python2.6等關鍵字.安裝後在python環境中執行import libxml2,如果未報錯,表示正確。
4.安裝scrapy.進入scrapy 官網:http://scrapy.org/download/ 這個連結,點擊Scrapy 0.12 on PyPI ,注意他後面可是有括弧的,(include windows installers),表示點擊這裡也可以在windows下安裝的。進入http://pypi.python.org/pypi/Scrapy 這個頁面,點擊這裡關於exe的格式,進行下載。下載後直接進行雙擊就可以執行了。這個時候查看是否在python目錄下的第三方目錄中(即site-package)中是否有關於scrapy的檔案夾了,然後在cmd模式中任意目錄輸入scrapy,這時候提示出錯誤,是需要把python根目錄下的script目錄設定到環境變數中。,然後重新開啟一個cmd視窗,在任意位置執行scrapy命令,得到下列頁面,表示環境配置成功.
5.關於項目,比如抓取百度搜尋引擎上的列表資訊吧。
1.建立項目.
a.在cmd視窗中,選擇一個路徑。在這裡我選擇了F:\workspace,在這裡建立一個主機的項目:scrapy startproject mobile 表示建立一個項目,根目錄名為mobile.,如果沒有報出錯資訊,那麼表示項目建立成功。通過檔案管理,我們可以明確的看到又這樣的一個檔案系統已經產生,並且在對應的檔案夾下又對應的檔案。
2.初步應用
初步爬蟲這裡唯寫一個最簡單的爬蟲,假如你遇到棘手的問題,可以同我溝通,我會儘力而為的幫你。
1.在spider檔案夾下建立一個檔案,該檔案名稱為baidu.py,而裡面的內容為:
from scrapy.spider import BaseSpider
class BaiduSpider(BaseSpider):
name = "baidu.com"
allowed_domains = ["baidu.com"]
start_urls = ["http://www.baidu.com/s?wd=%CA%D6%BB%FA&inputT=2110"]
def parse(self, response):
filename = response.url.split("/")[-2] + ‘.html‘
open(filename, ‘wb‘).write(response.body)
那麼這裡就會在項目根目錄產生一個www.baidu.com.html檔案名稱的html檔案,在cmd模式下,進入項目根目錄,即與scrapy.cfg同目錄下,執行scrapy crawl baidu.com 注意這裡baidu.com是對應BaiduSpider類下的name屬性的值.得到最終如果所示:
,最終我們將在mobile根目錄下發現www.baidu.com.html檔案,裡面會又對應的html內容.這次先這樣了,改天說說linux環境下的配置。
scrapy windows 安裝教程 python 爬蟲架構