本來有機會接一個搜尋引擎項目的,但最終因價格問題雙方談崩。為此,我感到深深的遺憾,失去了一個極好的實踐機會。但我不想因此放棄對搜尋引擎的學習和實踐,在網上聽到很多人推薦Nutch。所以我打算學習一下Nutch,要學習Nutch,還是先從安裝和使用Nutch開始吧。以下是我在xp sp2環境下安裝Nutch的過程記錄。
安裝Nutch需要的環境
jdk1.4.x or jdk1.5
tomcat4.x以上
cygwin
軟體下載地址:
j2SE5.0 http://java.sun.com/javase/downloads/index.html
Tomcat5.5 http://tomcat.apache.org/download-55.cgi
Cygwin http://www.cygwin.com/
Nutch-0.7.2 http://lucene.apache.org/nutch/
安裝步驟:(具體的安裝目錄可任意)
1、安裝JDK,我看到網上nutch支援的是jdk1.4,不過我安裝得是,jdk1.5,為了安裝tomcat5.5
我的安裝路徑:F:\project\java\jdk5
2、安裝cygwin,方法網上很多,我推薦安裝本地安裝版
我的安裝路徑:E:\Program Files\cygwin\
3、安裝tomcat,nutch的說明支援tomcat 4.3,我安裝的是tomcat5.5
我的安裝路徑:F:\project\Tomcat 5.5
4、安裝nutch-0.7.1.zip
將下載的壓縮包解壓縮到:F:\project\nutch-0.7.2\
配置步驟:
1、配置cygwin中的環境
E:\Program Files\cygwin\etc\profile
PATH="/usr/local/bin:/usr/bin:/bin:$PATH:/cygdrive/f/project/java/jdk5"
export NUTCH_JAVA_HOME=/cygdrive/f/project/java/jdk5
export JAVA_HOME=/cygdrive/f/project/java/jdk5
2、配置 nutch
1) 配置抓取過濾器,確定要抓取的網站地址
開啟 F:\project\nutch-0.7.2\conf\crawl-urlfilter.txt
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*gucas.ac.cn/
將上面的gucas.ac.cn改為你需要搜尋的網域名稱