大資料之nutch

來源:互聯網
上載者:User

標籤:

一、nutch簡介

nutch是大名鼎鼎的Doug Cutting發起的爬蟲項目,nutch孵化了現在大資料處理架構Hadoop。在nutch V 0.8.0 版本之前,Hadoop是nutch的一部分,從nutch V0.8.0開始,HDFS和MapReduce從nutch中剝離出成為Hadoop。v0.8.0之後,nutch就完全構建在Hadoop的基礎之上了。

Nutch是一個開源的網路爬蟲,在搜尋引擎中負責爬取網頁,同時自動維護網頁的URL資訊,例如相同網頁去重、網頁定時更新、網頁重新導向。nutch採用了MapReduce分布式爬取和解析,具有良好的水平擴充性。
現在版本的Nutch本身並不具有搜尋功能(V1.2之後,nutch專註於爬取資料),但是可以自動向搜尋伺服器提交爬取的網頁。例如,solr,可以通過Nutch內建的命令,來控制Nutch是否將網頁提交給索引伺服器。
Nutch雖然是優秀的分布式爬蟲架構,但是它的所有設計,都是為了搜尋引擎服務的。在hadoop上用map-reduce架構開發,並不是很適合做資料幫浦的業務。如果你的業務是做資料幫浦(精抽取),而不是搜尋引擎。不一定要選用Nutch。
nutch現在分為兩個分支。一個是1.x系列,一個是2.x系列。它們的主要區別是2.x引入了Gora作為儲存抽象層,從而支援各種NoSQL資料庫,如HBase,Cassandra等

二、nutch安裝

1.nutch的運行環境
    JDK1.7及以上
    需要使用linux作業系統

2.解壓:

設定環境變數

驗證: nutch

3.目錄結構

bin:兩個檔案,一個是nutch,一個是crawl,
        crawl是對nutch中的命令進行了封裝,實現了一站式調用。
       
conf:裡面儲存了nutch的基本配置資訊,nutch-default.xml nutch-site.xml parse-plugins.xml regex-urlfilter.txt
   
  docs:api文檔
  lib:儲存了nutch的依賴jar包
  plugins:儲存了nutch使用的外掛程式jar包

三、nutch 爬蟲

nutch 爬取準備工作

1:在nutch-site.xml中添加http.agent.name的配置。如果不配置,啟動會報錯。

2:建立一個種子地址目錄,urls(在nutch 目錄中就可以),在目錄下面建立一些種子檔案,種子檔案中儲存種子地址。每一個種子地址佔一行。http:www.zhaozhiyong.cn

   注意:種子地址必須以類似於http的字元開頭

3:(可選):控制爬取的url範圍,只爬取站內,在regex-urlfilter.txt 最後添加 :+^http://([a-z0-9]*\.)*bbs.superwu.cn/[\s\S]*
  

4:nutch爬取資料   bin/crwal urls crawl 1
    crawl urls crawl 1
    urls:表示是種子目錄
    crawl:表示是爬取檔案的儲存位置
    1:表示是爬取的層次


5.nucth爬取產生的目錄
    在爬取的時候指定的crawl中會有下面幾個目錄
    crawldb:儲存的是待爬取的url
        查看目錄資料:nutch readdb crawl/crawldb -stats -sort
    linkdb:儲存的是反鏈資訊
        查看目錄資料:nutch readlinkdb crawl/linkdb -dump links
    segments:儲存的是網站所有資料資訊
        查看目錄資料:nutch readseg -dump crawl/segments/20150906090648 sgedb
       
    一個segment包括以下子目錄:
        crawl_generate:包含需要抓取的網址列表
        crawl_fetch:包含每個抓取頁面的狀態
        content:包含每個抓取頁面的原始內容
        parse_text:包含每個抓取頁面的解析文本
        parse_data:包含每個頁面的外部連結(外鏈)和中繼資料
        crawl_parse:包含網址的外部連結地址,用於更新crawldb資料庫


   

6.查看nutch產生的資料
    nutch中的資料都是sequencefile格式的,除了使用上面的nutch命令查看之外
        還可以使用java代碼讀取這些檔案
        參考資料<查看nutch產生的中間檔案>
        注意:在使用提供的代碼讀取檔案時,需要先使用more命令查看對應檔案中儲存的資料類型
            對應需要修改代碼中27行中的value的類型。

四、在solr中對爬取的資料建立索引

在使用solr的之前做以下步驟:

1):需要把nutch下的schema-solr4.xml拷貝到solr中


        命令:cp /usr/local/nutch/conf/schema-solr4.xml /usr/local/solr-4.10.4/example/solr/collection1/conf

2):刪除solr中的預設設定檔schema.xml,在把剛才拷貝過去的檔案該名稱
        cd /usr/local/solr-4.10.4/example/solr/collection1/conf
        rm schema.xml
        mv schema-solr4.xml schema.xml

3):在schema.xml中添加一個欄位配置
        <field name="location" type="string" stored="true" indexed="true"/>

或者也可以動態指定,
        例子:crawl -i -D "solr.server.url=http://192.168.1.170:8983/solr" urls crawl 1

 

1.啟動solr

    cd /usr/local/solr-4.10.4/example
    java -jar start.jar

2.

命令:crawl -i urls crawl 1

-i:表示會對爬取的資料建立索引,預設會在本機solr中建立索引,
        如果使用其他伺服器上的solr,需要修改nutch-default中solr.server.url的值,
        建議在nutch-site.xml中進行覆蓋。

3.檢驗

http://127.0.0.1:8983/solr/  可以通過query 查看到content的內容

注意:如果把爬取層次改為2層,發先抓取的資料還是很少,那是因為在regex-urlfilter.txt中對url進行了過濾
        把url中包含?=之類的都忽略掉了。
        所以可以把這個配置直接注釋掉,或者修改為其他規則。
        詳細修改,參考:<regex-urlfilter解釋.txt>

大資料之nutch

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.