標籤:
一、nutch簡介
nutch是大名鼎鼎的Doug Cutting發起的爬蟲項目,nutch孵化了現在大資料處理架構Hadoop。在nutch V 0.8.0 版本之前,Hadoop是nutch的一部分,從nutch V0.8.0開始,HDFS和MapReduce從nutch中剝離出成為Hadoop。v0.8.0之後,nutch就完全構建在Hadoop的基礎之上了。
Nutch是一個開源的網路爬蟲,在搜尋引擎中負責爬取網頁,同時自動維護網頁的URL資訊,例如相同網頁去重、網頁定時更新、網頁重新導向。nutch採用了MapReduce分布式爬取和解析,具有良好的水平擴充性。
現在版本的Nutch本身並不具有搜尋功能(V1.2之後,nutch專註於爬取資料),但是可以自動向搜尋伺服器提交爬取的網頁。例如,solr,可以通過Nutch內建的命令,來控制Nutch是否將網頁提交給索引伺服器。
Nutch雖然是優秀的分布式爬蟲架構,但是它的所有設計,都是為了搜尋引擎服務的。在hadoop上用map-reduce架構開發,並不是很適合做資料幫浦的業務。如果你的業務是做資料幫浦(精抽取),而不是搜尋引擎。不一定要選用Nutch。
nutch現在分為兩個分支。一個是1.x系列,一個是2.x系列。它們的主要區別是2.x引入了Gora作為儲存抽象層,從而支援各種NoSQL資料庫,如HBase,Cassandra等
二、nutch安裝
1.nutch的運行環境
JDK1.7及以上
需要使用linux作業系統
2.解壓:
設定環境變數
驗證: nutch
3.目錄結構
bin:兩個檔案,一個是nutch,一個是crawl,
crawl是對nutch中的命令進行了封裝,實現了一站式調用。
conf:裡面儲存了nutch的基本配置資訊,nutch-default.xml nutch-site.xml parse-plugins.xml regex-urlfilter.txt
docs:api文檔
lib:儲存了nutch的依賴jar包
plugins:儲存了nutch使用的外掛程式jar包
三、nutch 爬蟲
nutch 爬取準備工作
1:在nutch-site.xml中添加http.agent.name的配置。如果不配置,啟動會報錯。
2:建立一個種子地址目錄,urls(在nutch 目錄中就可以),在目錄下面建立一些種子檔案,種子檔案中儲存種子地址。每一個種子地址佔一行。http:www.zhaozhiyong.cn
注意:種子地址必須以類似於http的字元開頭
3:(可選):控制爬取的url範圍,只爬取站內,在regex-urlfilter.txt 最後添加 :+^http://([a-z0-9]*\.)*bbs.superwu.cn/[\s\S]*
4:nutch爬取資料 bin/crwal urls crawl 1
crawl urls crawl 1
urls:表示是種子目錄
crawl:表示是爬取檔案的儲存位置
1:表示是爬取的層次
5.nucth爬取產生的目錄
在爬取的時候指定的crawl中會有下面幾個目錄
crawldb:儲存的是待爬取的url
查看目錄資料:nutch readdb crawl/crawldb -stats -sort
linkdb:儲存的是反鏈資訊
查看目錄資料:nutch readlinkdb crawl/linkdb -dump links
segments:儲存的是網站所有資料資訊
查看目錄資料:nutch readseg -dump crawl/segments/20150906090648 sgedb
一個segment包括以下子目錄:
crawl_generate:包含需要抓取的網址列表
crawl_fetch:包含每個抓取頁面的狀態
content:包含每個抓取頁面的原始內容
parse_text:包含每個抓取頁面的解析文本
parse_data:包含每個頁面的外部連結(外鏈)和中繼資料
crawl_parse:包含網址的外部連結地址,用於更新crawldb資料庫
6.查看nutch產生的資料
nutch中的資料都是sequencefile格式的,除了使用上面的nutch命令查看之外
還可以使用java代碼讀取這些檔案
參考資料<查看nutch產生的中間檔案>
注意:在使用提供的代碼讀取檔案時,需要先使用more命令查看對應檔案中儲存的資料類型
對應需要修改代碼中27行中的value的類型。
四、在solr中對爬取的資料建立索引
在使用solr的之前做以下步驟:
1):需要把nutch下的schema-solr4.xml拷貝到solr中
命令:cp /usr/local/nutch/conf/schema-solr4.xml /usr/local/solr-4.10.4/example/solr/collection1/conf
2):刪除solr中的預設設定檔schema.xml,在把剛才拷貝過去的檔案該名稱
cd /usr/local/solr-4.10.4/example/solr/collection1/conf
rm schema.xml
mv schema-solr4.xml schema.xml
3):在schema.xml中添加一個欄位配置
<field name="location" type="string" stored="true" indexed="true"/>
或者也可以動態指定,
例子:crawl -i -D "solr.server.url=http://192.168.1.170:8983/solr" urls crawl 1
1.啟動solr
cd /usr/local/solr-4.10.4/example
java -jar start.jar
2.
命令:crawl -i urls crawl 1
-i:表示會對爬取的資料建立索引,預設會在本機solr中建立索引,
如果使用其他伺服器上的solr,需要修改nutch-default中solr.server.url的值,
建議在nutch-site.xml中進行覆蓋。
3.檢驗
http://127.0.0.1:8983/solr/ 可以通過query 查看到content的內容
注意:如果把爬取層次改為2層,發先抓取的資料還是很少,那是因為在regex-urlfilter.txt中對url進行了過濾
把url中包含?=之類的都忽略掉了。
所以可以把這個配置直接注釋掉,或者修改為其他規則。
詳細修改,參考:<regex-urlfilter解釋.txt>
大資料之nutch