Nutch1.2二次開發詳細攻略(二)【圖文】——Windows平台下Nutch1.2的搭建

來源:互聯網
上載者:User

前言:作者(守望者MS)在實際搭建並開發Nutch的過程中參閱很多中文資料,但內容並不詳盡且有錯誤,於是在此記錄個人實戰過程,糾正一些文章錯誤,以詳細的過程展現一次簡單的二次開發流程,為初學者降低門檻。但不能保證完全沒有錯誤,如有發現希望大家指正。

目錄:

1.Nutch1.2二次開發詳細攻略(一)【圖文】------Windows平台下Cygwin環境的搭建

2.Nutch1.2二次開發詳細攻略(二)【圖文】------Windows平台下Nutch1.2的搭建

3.Nutch1.2二次開發詳細攻略(三)【圖文】------Nutch1.2二次開發(關於介面修改)

4.Nutch1.2二次開發詳細攻略(四)【圖文】------Nutch1.2二次開發(關於中文分詞)

本文出自 “守望者MS” 部落格,謝絕轉載!

一、開發環境介紹(以我個人為例):

個人開發端:windows Server 2003 + Cygwin + Eclipse3.2

二、具體步驟:

<1>.下載nutch1.2(http://labs.renren.com/apache-mirror//nutch/)

下載完成後解壓到指定的檔案夾。

在 開始測試Nutch是否搭建成功之前,請先確保本機安裝了JDK,並且設定了正確的JAVA_HOME環境變數,注意:環境變數的設定中一定要將JDK的 安裝根目錄設定為JAVA_HOME,然後再設定CLASSPATH,PATH,即:%JAVA_HOME%/bin,%JAVA_HOME%/lib, 千萬不要設定為絕對目錄,否則在執行Nutch命令時會出現錯誤

,點擊查看詳情

<2>.開始配置Nutch:

第一:修改nutch目錄下的conf子目錄下的兩個檔案:

在nutch-site.xml的configuration下增加一個http.agent.name節點(如不修改則不能抓取)

     <configuration>

            <property>

             <name>http.agent.name</name>

             <value>HD nutch agent</value>

             </property>

              <property>

              <name>http.agent.version</name>

              <value>1.2</value>

               </property>

      </configuration>

在crawl-urlfilter.txt中將如下語句改成需要的形式:

# accept hosts in MY.DOMAIN.NAME

+^http://([a-z0-9]*\.)*com.cn/
+^http://([a-z0-9]*\.)*cn/
+^http://([a-z0-9]*\.)*com/

註:“+”號前不要有空格

第二:執行抓取操作

(1).在Nutch根目錄下建立一個url.txt檔案,其每一行輸入你想要爬去的網站網域名稱。

例如:

http://www.qq.com/

http://www.sina.com.cn/

注:以行為單位,每行輸入一個網域名稱,且網域名稱格式遵從上述例子,最後要加"/"

(2).開啟cygwin,執行命令列:

註:作者的Nutch放置在G:/nutch

命令列:cd g:

命令列: cd nutch

 

命令列: bin/crawl url.txt –dir localweb –depth 3 –threads 4

注:該命令列中的參數請自行學習參考,這裡不多做解釋。

此時,Nutch就開始執行抓取操作了,配置成功。

經過以上的步驟,後端的操作基本完畢,此時可以在cygwin中到nutch根目錄下

執行下面命令進行簡單的查詢測試:

bin/nutch org.apache.nutch.searcher.NutchBean 關鍵字

<3>Tomcat的配置

(1).將tomcat安裝目錄下的\webapps下的ROOT刪除;

(2).將nutch目錄的nutch-1.2.war複製到tomcat\webapps下,並將其改名為ROOT.war;

     如果Tomcat正在運行,那麼ROOT.war會自動產生ROOT檔案夾;如果沒有運行,那麼啟動Tomcat之後,會自動產生ROOT檔案夾。

(3.)開啟ROOT\WEB-INF\classes下的nutch-site.xml檔案,修改成如下形式:

    <?xml version="1.0"?>

  <?xml-stylesheet type="text/xsl" href="nutch-conf.xsl"?>

  <!-- Put site-specific property overrides in this file. -->

  <nutch-conf>

   <property>

    <name>searcher.dir</name>

    <value>g:/nutch/localweb</value>

   </property>

  </nutch-conf>

  其中的"<value>g:/nutch/localweb</value>"部分,應根據自己的設定進行相應修改,是nutch抓取結果存放目錄。

啟動Tomcat,開啟瀏覽器在地址欄中輸入:http://localhost:8080,即可看見nutch的搜尋網頁面。

至此,Nutch的簡單配置完畢,接下來說說如何在eclipse中匯入並調試Nutch,

請點擊查看文章

前言:作者(守望者MS)在實際搭建並開發Nutch的過程中參閱很多中文資料,但內容並不詳盡且有錯誤,於是在此記錄個人實戰過程,糾正一些文章錯誤,以詳細的過程展現一次簡單的二次開發流程,為初學者降低門檻。但不能保證完全沒有錯誤,如有發現希望大家指正。

目錄:

1.Nutch1.2二次開發詳細攻略(一)【圖文】------Windows平台下Cygwin環境的搭建

2.Nutch1.2二次開發詳細攻略(二)【圖文】------Windows平台下Nutch1.2的搭建

3.Nutch1.2二次開發詳細攻略(三)【圖文】------Nutch1.2二次開發(關於介面修改)

4.Nutch1.2二次開發詳細攻略(四)【圖文】------Nutch1.2二次開發(關於中文分詞)

本文出自 “守望者MS” 部落格,謝絕轉載!

一、開發環境介紹(以我個人為例):

個人開發端:windows Server 2003 + Cygwin + Eclipse3.2

二、具體步驟:

<1>.下載nutch1.2(http://labs.renren.com/apache-mirror//nutch/)

下載完成後解壓到指定的檔案夾。

在 開始測試Nutch是否搭建成功之前,請先確保本機安裝了JDK,並且設定了正確的JAVA_HOME環境變數,注意:環境變數的設定中一定要將JDK的 安裝根目錄設定為JAVA_HOME,然後再設定CLASSPATH,PATH,即:%JAVA_HOME%/bin,%JAVA_HOME%/lib, 千萬不要設定為絕對目錄,否則在執行Nutch命令時會出現錯誤

,點擊查看詳情

<2>.開始配置Nutch:

第一:修改nutch目錄下的conf子目錄下的兩個檔案:

在nutch-site.xml的configuration下增加一個http.agent.name節點(如不修改則不能抓取)

     <configuration>

            <property>

             <name>http.agent.name</name>

             <value>HD nutch agent</value>

             </property>

              <property>

              <name>http.agent.version</name>

              <value>1.2</value>

               </property>

      </configuration>

在crawl-urlfilter.txt中將如下語句改成需要的形式:

# accept hosts in MY.DOMAIN.NAME

+^http://([a-z0-9]*\.)*com.cn/
+^http://([a-z0-9]*\.)*cn/
+^http://([a-z0-9]*\.)*com/

註:“+”號前不要有空格

第二:執行抓取操作

(1).在Nutch根目錄下建立一個url.txt檔案,其每一行輸入你想要爬去的網站網域名稱。

例如:

http://www.qq.com/

http://www.sina.com.cn/

注:以行為單位,每行輸入一個網域名稱,且網域名稱格式遵從上述例子,最後要加"/"

(2).開啟cygwin,執行命令列:

註:作者的Nutch放置在G:/nutch

命令列:cd g:

命令列: cd nutch

 

命令列: bin/crawl url.txt –dir localweb –depth 3 –threads 4

注:該命令列中的參數請自行學習參考,這裡不多做解釋。

此時,Nutch就開始執行抓取操作了,配置成功。

經過以上的步驟,後端的操作基本完畢,此時可以在cygwin中到nutch根目錄下

執行下面命令進行簡單的查詢測試:

bin/nutch org.apache.nutch.searcher.NutchBean 關鍵字

<3>Tomcat的配置

(1).將tomcat安裝目錄下的\webapps下的ROOT刪除;

(2).將nutch目錄的nutch-1.2.war複製到tomcat\webapps下,並將其改名為ROOT.war;

     如果Tomcat正在運行,那麼ROOT.war會自動產生ROOT檔案夾;如果沒有運行,那麼啟動Tomcat之後,會自動產生ROOT檔案夾。

(3.)開啟ROOT\WEB-INF\classes下的nutch-site.xml檔案,修改成如下形式:

    <?xml version="1.0"?>

  <?xml-stylesheet type="text/xsl" href="nutch-conf.xsl"?>

  <!-- Put site-specific property overrides in this file. -->

  <nutch-conf>

   <property>

    <name>searcher.dir</name>

    <value>g:/nutch/localweb</value>

   </property>

  </nutch-conf>

  其中的"<value>g:/nutch/localweb</value>"部分,應根據自己的設定進行相應修改,是nutch抓取結果存放目錄。

啟動Tomcat,開啟瀏覽器在地址欄中輸入:http://localhost:8080,即可看見nutch的搜尋網頁面。

至此,Nutch的簡單配置完畢,接下來說說如何在eclipse中匯入並調試Nutch,

請點擊查看文章

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.