在windows中如何安裝Nutch

來源:互聯網
上載者:User

本來有機會接一個搜尋引擎項目的,但最終因價格問題雙方談崩。為此,我感到深深的遺憾,失去了一個極好的實踐機會。但我不想因此放棄對搜尋引擎的學習和實踐,在網上聽到很多人推薦Nutch。所以我打算學習一下Nutch,要學習Nutch,還是先從安裝和使用Nutch開始吧。以下是我在xp sp2環境下安裝Nutch的過程記錄。

安裝Nutch需要的環境

jdk1.4.x or jdk1.5

tomcat4.x以上

cygwin

軟體下載地址:

j2SE5.0     http://java.sun.com/javase/downloads/index.html

Tomcat5.5   http://tomcat.apache.org/download-55.cgi

Cygwin      http://www.cygwin.com/

Nutch-0.7.2  http://lucene.apache.org/nutch/

安裝步驟:(具體的安裝目錄可任意)

1、安裝JDK,我看到網上nutch支援的是jdk1.4,不過我安裝得是,jdk1.5,為了安裝tomcat5.5

我的安裝路徑:F:\project\java\jdk5

2、安裝cygwin,方法網上很多,我推薦安裝本地安裝版

我的安裝路徑:E:\Program Files\cygwin\

3、安裝tomcat,nutch的說明支援tomcat 4.3,我安裝的是tomcat5.5

我的安裝路徑:F:\project\Tomcat 5.5

4、安裝nutch-0.7.1.zip

將下載的壓縮包解壓縮到:F:\project\nutch-0.7.2\

配置步驟:

1、配置cygwin中的環境

E:\Program Files\cygwin\etc\profile

PATH="/usr/local/bin:/usr/bin:/bin:$PATH:/cygdrive/f/project/java/jdk5"

export NUTCH_JAVA_HOME=/cygdrive/f/project/java/jdk5

export JAVA_HOME=/cygdrive/f/project/java/jdk5

2、配置 nutch

1) 配置抓取過濾器,確定要抓取的網站地址

開啟 F:\project\nutch-0.7.2\conf\crawl-urlfilter.txt

# accept hosts in MY.DOMAIN.NAME

+^http://([a-z0-9]*\.)*gucas.ac.cn/

將上面的gucas.ac.cn改為你需要搜尋的網域名稱

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.