Lucene4.6 把時間資訊寫入倒排索引的Offset位移量中,並實現按時間位置查詢

來源:互聯網
上載者:User

標籤:通過   Lucene   4.6   ken   size   off   範圍   地址   源碼   

       有個新的技術需求,需要對Lucene4.x的源碼進行擴充,把如下的有時間位置的文本寫入倒排索引,為此,我擴充了一個TimeTokenizer分詞器,在這個分詞器裡將時間資訊寫入

位移量Offset中。擴充了一個Filter,最後查詢時通過filter把時間資訊傳進去過濾想要的時間範圍之內的結果。

  Lucene倒排索引中分好的詞有兩個位移量一個是按字元的位移量(BeginOffset和EndOffset)另一個是以分詞(Term)為一個單元的position,每增加一個詞position加1,如果這個詞有兩個字元則EndOffset加2, BeginOffset等於上一次的EndOffset。

 

源碼地址:https://github.com/Jethu1/TimeAnalyzer

Lucene4.6 把時間資訊寫入倒排索引的Offset位移量中,並實現按時間位置查詢

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.