分詞器比較

來源:互聯網
上載者:User

          分詞器的評測包括分詞結果、時間消耗和分詞效果,分詞效果分為好、較好、中差幾個等級。

          JE分詞器,也就是MMAnalyzer中文分詞器,採用基於詞典的正向最大匹配分詞演算法,比較適合做垂直搜尋和資訊挖掘。通過資料分析得知,其分詞效果好。

          PaodingAnalyzer中文分詞器使用字典分詞法和二元分詞法相結合,首先使用字典分詞法,當詞在字典中不存在的時候,使用二元分詞法進行分詞,分詞效果比較好。但是同樣存在二元切分資訊冗餘的缺點。

         IKAnalyzer中文分詞器採用字典分詞法並結合正反向全切分以及正反向最大匹配切分兩種分詞方法,分詞的準確性高。

     

            從表中可以看出CJKAnalyzer分詞器分詞速度最快,其次是PaodingAnalyzer,然後是MMAnalyzer,最慢的是IKAnalyzer。           綜合比較,CJKAnalyzer雖然分詞速度很快,但只是對文本進行簡單的二元切分,效果很差,如果追求分詞的速度可以使用PaodingAnalyzer;如果最求最好的分詞效果,可以使用MMAnalyzer或IKAnalyzer;如果想在速度和分詞效果方面取得一個平衡,則使用MMAnalyzer比較合適。

 

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.