標籤:原始碼 簡介 相關 功能 base direct ret read 適合
http://www.ibm.com/developerworks/cn/Java/j-lo-lucene1/
***************************************************
Lucene 簡介
Lucene 是一個基於 Java 的全文資訊檢索工具包,它不是一個完整的搜尋應用程式,而是為你的應用程式提供索引和搜尋功能。Lucene 目前是 Apache Jakarta 家族中的一個開源項目。也是目前最為流行的基於 Java 開源全文檢索索引工具包。
目前已經有很多應用程式的搜尋功能是基於 Lucene 的,比如 Eclipse 的協助系統的搜尋功能。Lucene 能夠為文本類型的資料建立索引,所以你只要能把你要索引的資料格式轉化的文本的,Lucene 就能對你的文檔進行索引和搜尋。比如你要對一些 HTML 文檔,PDF 文檔進行索引的話你就首先需要把 HTML 文檔和 PDF 文檔轉化成文字格式設定的,然後將轉化後的內容交給 Lucene 進行索引,然後把建立好的索引檔案儲存到磁碟或者記憶體中,最後根據使用者輸入的查詢條件在索引檔案上進行查詢。不指定要索引的文檔的格式也使 Lucene 能夠幾乎適用於所有的搜尋應用程式。
圖 1 表示了搜尋應用程式和 Lucene 之間的關係,也反映了利用 Lucene 構建搜尋應用程式的流程:
圖 1. 搜尋應用程式和 Lucene 之間的關係
回頁首
索引和搜尋
索引是現代搜尋引擎的核心,建立索引的過程就是把來源資料處理成非常方便查詢的索引檔案的過程。為什麼索引這麼重要呢,試想你現在要在大量的文檔中搜尋含有某個關鍵詞的文檔,那麼如果不建立索引的話你就需要把這些文檔順序的讀入記憶體,然後檢查這個文章中是不是含有要尋找的關鍵詞,這樣的話就會耗費非常多的時間,想想搜尋引擎可是在毫秒級的時間內尋找出要搜尋的結果的。這就是由於建立了索引的原因,你可以把索引想象成這樣一種資料結構,他能夠使你快速的隨機訪問儲存在索引中的關鍵詞,進而找到該關鍵詞所關聯的文檔。Lucene 採用的是一種稱為反向索引(inverted index)的機制。反向索引就是說我們維護了一個詞 / 短語表,對於這個表中的每個詞 / 短語,都有一個鏈表描述了有哪些文檔包含了這個詞 / 短語。這樣在使用者輸入查詢條件的時候,就能非常快的得到搜尋結果。我們將在本系列文章的第二部分詳細介紹 Lucene 的索引機制,由於 Lucene 提供了簡單易用的 API,所以即使讀者剛開始對全文本進行索引的機制並不太瞭解,也可以非常容易的使用 Lucene 對你的文檔實現索引。
對文檔建立好索引後,就可以在這些索引上面進行搜尋了。搜尋引擎首先會對搜尋的關鍵詞進行解析,然後再在建立好的索引上面進行尋找,最終返回和使用者輸入的關鍵詞相關聯的文檔。
回頁首
Lucene 軟體包分析
Lucene 軟體包的發布形式是一個 JAR 檔案,下面我們分析一下這個 JAR 檔案裡面的主要的 JAVA 包,使讀者對之有個初步的瞭解。
Package: org.apache.lucene.document
這個包提供了一些為封裝要索引的文檔所需要的類,比如 Document, Field。這樣,每一個文檔最終被封裝成了一個 Document 對象。
Package: org.apache.lucene.analysis
這個包主要功能是對文檔進行分詞,因為文檔在建立索引之前必須要進行分詞,所以這個包的作用可以看成是為建立索引做準備工作。
Package: org.apache.lucene.index
這個包提供了一些類來協助建立索引以及對建立好的索引進行更新。這裡面有兩個基礎的類:IndexWriter 和 IndexReader,其中 IndexWriter 是用來建立索引並添加文檔到索引中的,IndexReader 是用來刪除索引中的文檔的。
Package: org.apache.lucene.search
這個包提供了對在建立好的索引上進行搜尋所需要的類。比如 IndexSearcher 和 Hits, IndexSearcher 定義了在指定的索引上進行搜尋的方法,Hits 用來儲存搜尋得到的結果。
回頁首
一個簡單的搜尋應用程式
假設我們的電腦的目錄中含有很多文字文件,我們需要尋找哪些文檔含有某個關鍵詞。為了實現這種功能,我們首先利用 Lucene 對這個目錄中的文檔建立索引,然後在建立好的索引中搜尋我們所要尋找的文檔。通過這個例子讀者會對如何利用 Lucene 構建自己的搜尋應用程式有個比較清楚的認識。
回頁首
建立索引
為了對文檔進行索引,Lucene 提供了五個基礎的類,他們分別是 Document, Field, IndexWriter, Analyzer, Directory。下面我們分別介紹一下這五個類的用途:
Document
Document 是用來描述文檔的,這裡的文檔可以指一個 HTML 頁面,一封電子郵件,或者是一個文字檔。一個 Document 對象由多個 Field 對象組成的。可以把一個 Document 對象想象成資料庫中的一個記錄,而每個 Field 對象就是記錄的一個欄位。
Field
Field 對象是用來描述一個文檔的某個屬性的,比如一封電子郵件的標題和內容可以用兩個 Field 對象分別描述。
Analyzer
在一個文檔被索引之前,首先需要對文檔內容進行分詞處理,這部分工作就是由 Analyzer 來做的。Analyzer 類是一個抽象類別,它有多個實現。針對不同的語言和應用需要選擇適合的 Analyzer。Analyzer 把分詞後的內容交給 IndexWriter 來建立索引。
IndexWriter
IndexWriter 是 Lucene 用來建立索引的一個核心的類,他的作用是把一個個的 Document 對象加到索引中來。
Directory
這個類代表了 Lucene 的索引的儲存的位置,這是一個抽象類別,它目前有兩個實現,第一個是 FSDirectory,它表示一個儲存在檔案系統中的索引的位置。第二個是 RAMDirectory,它表示一個儲存在記憶體當中的索引的位置。
熟悉了建立索引所需要的這些類後,我們就開始對某個目錄下面的文字檔建立索引了,清單 1 給出了對某個目錄下的文字檔建立索引的原始碼。
清單 1. 對文字檔建立索引
package TestLucene; import java.io.File; import java.io.FileReader; import java.io.Reader; import java.util.Date; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; import org.apache.lucene.index.IndexWriter; /** * This class demonstrate the process of creating index with Lucene * for text files */ public class TxtFileIndexer { public static void main(String[] args) throws Exception{ //indexDir is the directory that hosts Lucene‘s index files File indexDir = new File("D:\\luceneIndex"); //dataDir is the directory that hosts the text files that to be indexed File dataDir = new File("D:\\luceneData"); Analyzer luceneAnalyzer = new StandardAnalyzer(); File[] dataFiles = dataDir.listFiles(); IndexWriter indexWriter = new IndexWriter(indexDir,luceneAnalyzer,true); long startTime = new Date().getTime(); for(int i = 0; i < dataFiles.length; i++){ if(dataFiles[i].isFile() && dataFiles[i].getName().endsWith(".txt")){ System.out.println("Indexing file " + dataFiles[i].getCanonicalPath()); Document document = new Document(); Reader txtReader = new FileReader(dataFiles[i]); document.add(Field.Text("path",dataFiles[i].getCanonicalPath())); document.add(Field.Text("contents",txtReader)); indexWriter.addDocument(document); } } indexWriter.optimize(); indexWriter.close(); long endTime = new Date().getTime(); System.out.println("It takes " + (endTime - startTime) + " milliseconds to create index for the files in directory " + dataDir.getPath()); } }
在清單 1 中,我們注意到類 IndexWriter 的建構函式需要三個參數,第一個參數指定了所建立的索引要存放的位置,他可以是一個 File 對象,也可以是一個 FSDirectory 對象或者 RAMDirectory 對象。第二個參數指定了 Analyzer 類的一個實現,也就是指定這個索引是用哪個分詞器對文擋內容進行分詞。第三個參數是一個布爾型的變數,如果為 true 的話就代表建立一個新的索引,為 false 的話就代表在原來索引的基礎上進行操作。接著程式遍曆了目錄下面的所有文字文件,並為每一個文字文件建立了一個 Document 對象。然後把文字文件的兩個屬性:路徑和內容加入到了兩個 Field 對象中,接著在把這兩個 Field 對象加入到 Document 對象中,最後把這個文檔用 IndexWriter 類的 add 方法加入到索引中去。這樣我們便完成了索引的建立。接下來我們進入在建立好的索引上進行搜尋的部分。
回頁首
搜尋文檔
利用 Lucene 進行搜尋就像建立索引一樣也是非常方便的。在上面一部分中,我們已經為一個目錄下的文字文件建立好了索引,現在我們就要在這個索引上進行搜尋以找到包含某個關鍵詞或短語的文檔。Lucene 提供了幾個基礎的類來完成這個過程,它們分別是呢 IndexSearcher, Term, Query, TermQuery, Hits. 下面我們分別介紹這幾個類的功能。
Query
這是一個抽象類別,他有多個實現,比如 TermQuery, BooleanQuery, PrefixQuery. 這個類的目的是把使用者輸入的查詢字串封裝成 Lucene 能夠識別的 Query。
Term
Term 是搜尋的基本單位,一個 Term 對象有兩個 String 類型的域組成。產生一個 Term 對象可以有如下一條語句來完成:Term term = new Term(“fieldName”,”queryWord”); 其中第一個參數代表了要在文檔的哪一個 Field 上進行尋找,第二個參數代表了要查詢的關鍵詞。
TermQuery
TermQuery 是抽象類別 Query 的一個子類,它同時也是 Lucene 支援的最為基本的一個查詢類。產生一個 TermQuery 對象由如下陳述式完成: TermQuery termQuery = new TermQuery(new Term(“fieldName”,”queryWord”)); 它的建構函式只接受一個參數,那就是一個 Term 對象。
IndexSearcher
IndexSearcher 是用來在建立好的索引上進行搜尋的。它只能以唯讀方式開啟一個索引,所以可以有多個 IndexSearcher 的執行個體在一個索引上進行操作。
Hits
Hits 是用來儲存搜尋的結果的。
介紹完這些搜尋所必須的類之後,我們就開始在之前所建立的索引上進行搜尋了,清單 2 給出了完成搜尋功能所需要的代碼。
清單 2 :在建立好的索引上進行搜尋
package TestLucene; import java.io.File; import org.apache.lucene.document.Document; import org.apache.lucene.index.Term; import org.apache.lucene.search.Hits; import org.apache.lucene.search.IndexSearcher; import org.apache.lucene.search.TermQuery; import org.apache.lucene.store.FSDirectory; /** * This class is used to demonstrate the * process of searching on an existing * Lucene index * */ public class TxtFileSearcher { public static void main(String[] args) throws Exception{ String queryStr = "lucene"; //This is the directory that hosts the Lucene index File indexDir = new File("D:\\luceneIndex"); FSDirectory directory = FSDirectory.getDirectory(indexDir,false); IndexSearcher searcher = new IndexSearcher(directory); if(!indexDir.exists()){ System.out.println("The Lucene index is not exist"); return; } Term term = new Term("contents",queryStr.toLowerCase()); TermQuery luceneQuery = new TermQuery(term); Hits hits = searcher.search(luceneQuery); for(int i = 0; i < hits.length(); i++){ Document document = hits.doc(i); System.out.println("File: " + document.get("path")); } } }
在清單 2 中,類 IndexSearcher 的建構函式接受一個類型為 Directory 的對象,Directory 是一個抽象類別,它目前有兩個子類:FSDirctory 和 RAMDirectory. 我們的程式中傳入了一個 FSDirctory 對象作為其參數,代表了一個儲存在磁碟上的索引的位置。建構函式執行完成後,代表了這個 IndexSearcher 以唯讀方式開啟了一個索引。然後我們程式構造了一個 Term 對象,通過這個 Term 對象,我們指定了要在文檔的內容中搜尋包含關鍵詞”lucene”的文檔。接著利用這個 Term 物件建構出 TermQuery 對象並把這個 TermQuery 對象傳入到 IndexSearcher 的 search 方法中進行查詢,返回的結果儲存在 Hits 對象中。最後我們用了一個迴圈語句把搜尋到的文檔的路徑都列印了出來。 好了,我們的搜尋應用程式已經開發完畢,怎麼樣,利用 Lucene 開發搜尋應用程式是不是很簡單。
回頁首
總結
本文首先介紹了 Lucene 的一些基本概念,然後開發了一個應用程式示範了利用 Lucene 建立索引並在該索引上進行搜尋的過程。希望本文能夠為學習 Lucene 的讀者提供協助。
實戰 Lucene,第 1 部分: 初識 Lucene (zhuan)