基於 Python 的中文分詞方案那種比較好?

來源:互聯網
上載者:User

回複內容:

"結巴"中文分詞:做最好的Python中文分片語件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module.


https://github.com/fxsjy/jieba
pynlpir,對ictclas的封裝,最近做畢設正在用,速度和準確率都很好~閑來無事,寫了兩個分詞程式,一個是基於mmseg的另一個是基於CRF的,目前已經上傳pypi.
pip install scseg
pip install genius其實我沒有用過python或其他任何語言的分詞庫,不過恰好在OSChina上看到了幾個python的中文分詞庫,有幾個也是前面一些知友提到的,我把連結轉過來吧:
  • http://www.oschina.net/project/tag/264/segment?sort=view&lang=25&os=0
python調用c庫,可以使用中科院的分詞,感覺還行,就是匯入使用者自訂的詞庫存在失敗率,然後還無法調試出原因

今天剛給四款python中文分詞的做了簡單測試
http://hi.baidu.com/fooying/item/6ae7a0e26087e8d7eb34c9e8 smallseg ;
輕量級,容易使用。
jieba 路過。。。中科院和哈工大的兩個分詞包就挺好
網上有人做了總結,發來給大家參考
幾種開源分詞工具的比較 有個 mmseg for python 分詞我沒用過python語言寫的分詞程式。

分詞這種功能屬於計算密集型功能,需要大量計算,python不適合這種場合,可以考慮python調用c庫。
  • 聯繫我們

    該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

    如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

    A Free Trial That Lets You Build Big!

    Start building with 50+ products and up to 12 months usage for Elastic Compute Service

    • Sales Support

      1 on 1 presale consultation

    • After-Sales Support

      24/7 Technical Support 6 Free Tickets per Quarter Faster Response

    • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.