schema.xml配置和solrj的使用

來源:互聯網
上載者:User

schema.xml配置和solrj的使用

前面講到如何搭建solr運行環境以及對中文查詢語句進行分詞處理,這篇文章主要講解對schema.xml的相關配置和如何使用solrj

 對於搜尋程式來說,最重要的是理解他的總體架構.solr也是基於Lucene的全文檢索搜尋伺服器。同時對其進行了擴充,提供了比Lucene更為豐富的查詢語言,同時實現了可配置、可擴充並對查詢效能進行了最佳化,並且提供了一個完善的功能管理介面.但是他的執行過程卻無異於lucene 

 

搜尋程式的典型組件,其中陰影部分由lucene完成

我們首先來說說這個schema.xml。 
schema.xml,這個相當於資料表設定檔,它定義了加入索引的資料的資料類型。主要包括types、fields和其他的一些預設設定。 

1)首先需要在types結點內定義一個FieldType子結點,包括name,class,positionIncrementGap等等一些參數,name就是這個FieldType的名稱,class指向org.apache.solr.analysis包裡面對應的class名稱,用來定義這個類型的行為。在FieldType定義的時候最重要的就是定義這個類型的資料在建立索引和進行查詢的時候要使用的分析器analyzer,包括分詞和過濾。在第二篇文章中詳細講了怎樣添加中文分詞器,詳情請參見http://3961409.blog.51cto.com/3951409/833417

2)接下來的工作就是在fields結點內定義具體的欄位(類似資料庫中的欄位),就是filed,filed定義包括name,type(為之前定義過的各種FieldType),indexed(是否被索引),stored(是否被儲存),multiValued(是否有多個值)等等。 
例: 

 
  1. <field name="id" type="string" indexed="true" stored="true" required="true" />  
  2. <field name="ant_title" type="textComplex" indexed="true" stored="true" />  
  3. <field name="ant_content" type="textComplex" indexed="true" stored="true" /> 
  4. <field name="all" type="textComplex" indexed="true" stored="false" multiValued="true"/> 

field的定義相當重要,有幾個技巧需注意一下,對可能存在多值得欄位盡量設定multiValued屬性為true,避免建索引拋出錯誤;如果不需要儲存相應欄位值,盡量將stored屬性設為false。

3)建議建立了一個拷貝欄位,將所有的全文欄位複製到一個欄位中,以便進行統一的檢索: (此時進行查詢使用all:jason就相當於使用ant_title:jason
or ant_content:jason)

 
  1. <field name="all" type="textComplex" indexed="true" stored="false" multiValued="true"/>  

並在拷貝欄位結點處完成拷貝設定: 

 
  1. <copyField source="ant_title" dest="all"/> 
  2. <copyField source="ant_content" dest="all"/> 

4)除此之外,還可以定義動態欄位,所謂動態欄位就是不用指定具體的名稱,只要定義欄位名稱的規則,例如定義一個dynamicField,name 為*_i,定義它的type為text,那麼在使用這個欄位的時候,任何以_i結尾的欄位都被認為是符合這個定義的,例如:name_i,gender_i,school_i等。

schema.xml設定檔大體上就是這樣,更多細節請參見solr wiki http://wiki.apache.org/solr/SchemaXml。

 

下面將使用solrj對索引進行操作 

1)建立工程,並加入以下jar包(參考http://wiki.apache.org/solr/Solrj)

From /dist:

  • apache-solr-solrj-*.jar

From /dist/solrj-lib

  • commons-codec-1.3.jar
  • commons-httpclient-3.1.jar
  • commons-io-1.4.jar
  • jcl-over-slf4j-1.5.5.jar
  • slf4j-api-1.5.5.jar

也就是solr/dist/solrj-lib/中commons-codec-x.xjar , commons-httpclient-x.x.jar
, commons-io-x.x.jar
, jcl-over-slf4j-x.x.jar
, slf4j-api-x.x.jar還有solr/dist/中apache-solr-solrj-x.x.x.jar
, apache-solr-core-x.x.x.jar

2)建立一個測試類別

 
  1. package cn.edu.ccut.blackant; 
  2.  
  3. import java.io.IOException; 
  4. import java.net.MalformedURLException; 
  5.  
  6. import org.apache.solr.client.solrj.SolrServerException; 
  7. import org.apache.solr.client.solrj.impl.CommonsHttpSolrServer; 
  8. import org.apache.solr.common.SolrInputDocument; 
  9. import org.junit.Test; 
  10.  
  11. public class SolrTest { 
  12.      
  13.     @Test 
  14.     public void test(){ 
  15.         final String URL="http://localhost:8080/solr"; 
  16.         //建立solrserver對象(CommonsHttpSolrServer) 
  17.         try { 
  18.             CommonsHttpSolrServer server=new CommonsHttpSolrServer(URL); 
  19.              
  20.             SolrInputDocument doc = new SolrInputDocument(); 
  21.             doc.addField("id", "2");//id必須有,value的實值型別要根據schema.xml中規定的id類型而定 
  22.             doc.addField("ant_title", "atitle"); 
  23.             doc.addField("ant_content", "jason"); 
  24.              
  25.             server.add(doc); 
  26.             server.commit(); 
  27.         } catch (MalformedURLException e) { 
  28.             // TODO Auto-generated catch block 
  29.             e.printStackTrace(); 
  30.         } catch (SolrServerException e) { 
  31.             // TODO Auto-generated catch block 
  32.             e.printStackTrace(); 
  33.         } catch (IOException e) { 
  34.             // TODO Auto-generated catch block 
  35.             e.printStackTrace(); 
  36.         } 
  37.     } 

項目中添加junit,具體做法是右鍵項目-->add library-->選擇junit-->junit4-->finish

3)運行測試類別(運行相關資訊需要查看控制台或者tomcat的記錄檔)

運行結果可以使用luke來查看,使用前一定要根據solr的版本來選擇luke,這裡是用的是solr3.5,所以luke也要用3.5版本

http://code.google.com/p/luke/downloads/detail?name=lukeall-3.5.0.jar

使用方法:

   3.1)進入檔案所在路徑

   3.2)在命令列java -jar ./lukeall-3.5.0.jar開啟軟體

運行介面:

需要說明的是要指定solr的索引檔案路徑.此處為/home/jason/solr-tomcat/solr/data/index,指定好路徑以後

運行成功的話將會產生新的索引,右下角所示.如果程式中id值不變,那麼每次將會覆蓋id為2的索引值,這樣可以完成更新索引的操作

4)訪問http://127.0.0.1:8080/solr/admin/

查詢*:*(查詢全部),如果結果包含程式中的資訊,那麼恭喜配置成功!

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.