前言:作者(守望者MS)在實際搭建並開發Nutch的過程中參閱很多中文資料,但內容並不詳盡且有錯誤,於是在此記錄個人實戰過程,糾正一些文章錯誤,以詳細的過程展現一次簡單的二次開發流程,為初學者降低門檻。但不能保證完全沒有錯誤,如有發現希望大家指正。
目錄:
1.Nutch1.2二次開發詳細攻略(一)【圖文】------Windows平台下Cygwin環境的搭建
2.Nutch1.2二次開發詳細攻略(二)【圖文】------Windows平台下Nutch1.2的搭建
3.Nutch1.2二次開發詳細攻略(三)【圖文】------Nutch1.2二次開發(關於介面修改)
4.Nutch1.2二次開發詳細攻略(四)【圖文】------Nutch1.2二次開發(關於中文分詞)
本文出自 “守望者MS” 部落格,謝絕轉載!
一、開發環境介紹(以我個人為例):
個人開發端:windows Server 2003 + Cygwin + Eclipse3.2
二、具體步驟:
<1>.下載nutch1.2(http://labs.renren.com/apache-mirror//nutch/)
下載完成後解壓到指定的檔案夾。
在 開始測試Nutch是否搭建成功之前,請先確保本機安裝了JDK,並且設定了正確的JAVA_HOME環境變數,注意:環境變數的設定中一定要將JDK的 安裝根目錄設定為JAVA_HOME,然後再設定CLASSPATH,PATH,即:%JAVA_HOME%/bin,%JAVA_HOME%/lib, 千萬不要設定為絕對目錄,否則在執行Nutch命令時會出現錯誤
,點擊查看詳情
<2>.開始配置Nutch:
第一:修改nutch目錄下的conf子目錄下的兩個檔案:
在nutch-site.xml的configuration下增加一個http.agent.name節點(如不修改則不能抓取)
<configuration>
<property>
<name>http.agent.name</name>
<value>HD nutch agent</value>
</property>
<property>
<name>http.agent.version</name>
<value>1.2</value>
</property>
</configuration>
在crawl-urlfilter.txt中將如下語句改成需要的形式:
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*com.cn/
+^http://([a-z0-9]*\.)*cn/
+^http://([a-z0-9]*\.)*com/
註:“+”號前不要有空格
第二:執行抓取操作
(1).在Nutch根目錄下建立一個url.txt檔案,其每一行輸入你想要爬去的網站網域名稱。
例如:
http://www.qq.com/
http://www.sina.com.cn/
注:以行為單位,每行輸入一個網域名稱,且網域名稱格式遵從上述例子,最後要加"/"
(2).開啟cygwin,執行命令列:
註:作者的Nutch放置在G:/nutch
命令列:cd g:
命令列: cd nutch
命令列: bin/crawl url.txt –dir localweb –depth 3 –threads 4
注:該命令列中的參數請自行學習參考,這裡不多做解釋。
此時,Nutch就開始執行抓取操作了,配置成功。
經過以上的步驟,後端的操作基本完畢,此時可以在cygwin中到nutch根目錄下
執行下面命令進行簡單的查詢測試:
bin/nutch org.apache.nutch.searcher.NutchBean 關鍵字
<3>Tomcat的配置
(1).將tomcat安裝目錄下的\webapps下的ROOT刪除;
(2).將nutch目錄的nutch-1.2.war複製到tomcat\webapps下,並將其改名為ROOT.war;
如果Tomcat正在運行,那麼ROOT.war會自動產生ROOT檔案夾;如果沒有運行,那麼啟動Tomcat之後,會自動產生ROOT檔案夾。
(3.)開啟ROOT\WEB-INF\classes下的nutch-site.xml檔案,修改成如下形式:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="nutch-conf.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<nutch-conf>
<property>
<name>searcher.dir</name>
<value>g:/nutch/localweb</value>
</property>
</nutch-conf>
其中的"<value>g:/nutch/localweb</value>"部分,應根據自己的設定進行相應修改,是nutch抓取結果存放目錄。
啟動Tomcat,開啟瀏覽器在地址欄中輸入:http://localhost:8080,即可看見nutch的搜尋網頁面。
至此,Nutch的簡單配置完畢,接下來說說如何在eclipse中匯入並調試Nutch,
請點擊查看文章
前言:作者(守望者MS)在實際搭建並開發Nutch的過程中參閱很多中文資料,但內容並不詳盡且有錯誤,於是在此記錄個人實戰過程,糾正一些文章錯誤,以詳細的過程展現一次簡單的二次開發流程,為初學者降低門檻。但不能保證完全沒有錯誤,如有發現希望大家指正。
目錄:
1.Nutch1.2二次開發詳細攻略(一)【圖文】------Windows平台下Cygwin環境的搭建
2.Nutch1.2二次開發詳細攻略(二)【圖文】------Windows平台下Nutch1.2的搭建
3.Nutch1.2二次開發詳細攻略(三)【圖文】------Nutch1.2二次開發(關於介面修改)
4.Nutch1.2二次開發詳細攻略(四)【圖文】------Nutch1.2二次開發(關於中文分詞)
本文出自 “守望者MS” 部落格,謝絕轉載!
一、開發環境介紹(以我個人為例):
個人開發端:windows Server 2003 + Cygwin + Eclipse3.2
二、具體步驟:
<1>.下載nutch1.2(http://labs.renren.com/apache-mirror//nutch/)
下載完成後解壓到指定的檔案夾。
在 開始測試Nutch是否搭建成功之前,請先確保本機安裝了JDK,並且設定了正確的JAVA_HOME環境變數,注意:環境變數的設定中一定要將JDK的 安裝根目錄設定為JAVA_HOME,然後再設定CLASSPATH,PATH,即:%JAVA_HOME%/bin,%JAVA_HOME%/lib, 千萬不要設定為絕對目錄,否則在執行Nutch命令時會出現錯誤
,點擊查看詳情
<2>.開始配置Nutch:
第一:修改nutch目錄下的conf子目錄下的兩個檔案:
在nutch-site.xml的configuration下增加一個http.agent.name節點(如不修改則不能抓取)
<configuration>
<property>
<name>http.agent.name</name>
<value>HD nutch agent</value>
</property>
<property>
<name>http.agent.version</name>
<value>1.2</value>
</property>
</configuration>
在crawl-urlfilter.txt中將如下語句改成需要的形式:
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*com.cn/
+^http://([a-z0-9]*\.)*cn/
+^http://([a-z0-9]*\.)*com/
註:“+”號前不要有空格
第二:執行抓取操作
(1).在Nutch根目錄下建立一個url.txt檔案,其每一行輸入你想要爬去的網站網域名稱。
例如:
http://www.qq.com/
http://www.sina.com.cn/
注:以行為單位,每行輸入一個網域名稱,且網域名稱格式遵從上述例子,最後要加"/"
(2).開啟cygwin,執行命令列:
註:作者的Nutch放置在G:/nutch
命令列:cd g:
命令列: cd nutch
命令列: bin/crawl url.txt –dir localweb –depth 3 –threads 4
注:該命令列中的參數請自行學習參考,這裡不多做解釋。
此時,Nutch就開始執行抓取操作了,配置成功。
經過以上的步驟,後端的操作基本完畢,此時可以在cygwin中到nutch根目錄下
執行下面命令進行簡單的查詢測試:
bin/nutch org.apache.nutch.searcher.NutchBean 關鍵字
<3>Tomcat的配置
(1).將tomcat安裝目錄下的\webapps下的ROOT刪除;
(2).將nutch目錄的nutch-1.2.war複製到tomcat\webapps下,並將其改名為ROOT.war;
如果Tomcat正在運行,那麼ROOT.war會自動產生ROOT檔案夾;如果沒有運行,那麼啟動Tomcat之後,會自動產生ROOT檔案夾。
(3.)開啟ROOT\WEB-INF\classes下的nutch-site.xml檔案,修改成如下形式:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="nutch-conf.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<nutch-conf>
<property>
<name>searcher.dir</name>
<value>g:/nutch/localweb</value>
</property>
</nutch-conf>
其中的"<value>g:/nutch/localweb</value>"部分,應根據自己的設定進行相應修改,是nutch抓取結果存放目錄。
啟動Tomcat,開啟瀏覽器在地址欄中輸入:http://localhost:8080,即可看見nutch的搜尋網頁面。
至此,Nutch的簡單配置完畢,接下來說說如何在eclipse中匯入並調試Nutch,
請點擊查看文章