前言:作者(守望者MS)在實際搭建並開發Nutch的過程中參閱很多中文資料,但內容並不詳盡且有錯誤,於是在此記錄個人實戰過程,糾正一些文章錯誤,以詳細的過程展現一次簡單的二次開發流程,為初學者降低門檻。但不能保證完全沒有錯誤,如有發現希望大家指正。
本文出自 “守望者MS” 部落格,謝絕轉載!
目錄:
1.Nutch1.2二次開發詳細攻略(一)【圖文】------Windows平台下Cygwin環境的搭建
2.Nutch1.2二次開發詳細攻略(二)【圖文】------Windows平台下Nutch1.2的搭建
3.Nutch1.2二次開發詳細攻略(三)【圖文】------Nutch1.2二次開發(關於介面修改)
4.Nutch1.2二次開發詳細攻略(四)【圖文】------Nutch1.2二次開發(關於中文分詞)
一、開發環境介紹(以我個人為例):
個人開發端:windows Server 2003 + Cygwin + Eclipse3.2
二、具體步驟:
1.下載並安裝Cygwin(http://cygwin.com/install.html)
<1>.安裝Cygwin
點擊下載好的setup.exe
選擇下一步。
選擇第一項Install from Internet。
選擇安裝目錄(視個人情況而定)。下一步
選擇從網上下載的Package的存放目錄。下一步
如果你本機現在不是用代理上網,請預設選擇第一項並點擊下一步。
選擇cygwin鏡像下載網站,現在國內提供鏡像的只有163,所以國內的使用者預設選擇第一項是比較好的選擇。
接下來的一步是最重要,也是我要重點強調的,我初次接觸Nutch,並在windows平台下安裝Cygwin時,參閱網上資料說這一步應該選擇全部安裝,否則會很多錯誤,當時信以為真,為避免後面開發出現錯誤,於是選擇下載全部package,無奈在伺服器上下載了2天,都沒有下載完成。最後經過實踐證明,這一步執行預設的選項即可(整個安裝過程只需耗費5分鐘左右),沒有必要全部下載所有的包。詳情見。
關於Cygwin接下來安裝就是一直點擊下一步即可。
<2>.配置cygwin
安裝完畢cygwin之後,最重要的操作就是為Cygwin配置環境變數。
在編輯系統變數中的Path,在期變數值中添加上你的Cygwin安裝目錄下bin檔案夾的絕對路徑。
例如我的是G:\cygwin\bin.
至此,在windows平台上開發搭建Nutch的第一步已完成,成功安裝cygwin。