python中文分詞

來源:互聯網
上載者:User

python做SEO相關事情,我在之前的文章已經講到過,今天給大家分享python中文分詞的一些知識。

說到分詞,如果是做GOOGLE的朋友,那用python分詞很簡單,可以直接根據空格來分詞,或者有相關的nltk模組來處理。

中文分詞的話,就比較麻煩,因為不能通過空格來分詞,並且分詞還得考慮語義問題等。

下面列出幾個比較好的中文分詞:我用的比較多的是結巴分詞,下面詳細介紹下:

1 結巴分詞 0.22 發布,Python 中文分片語件

jieba 支援三種分詞模式:
      精確模式,試圖將句子最精確地切開,適合文本分析;
      全模式,把句子中所有的可以成詞的詞語都掃描出來, 速度非常快,但是不能解決歧義;
      搜尋引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜尋引擎分詞。

      並且有5個功能:1分詞 2添加自訂字典 3 關鍵詞提取 4 詞性標註 5 並行分詞

Python 2.x 下的安裝

    全自動安裝:easy_install jieba 或者 pip install jieba
    半自動安裝:先下載http://pypi.python.org/pypi/jieba/ ,解壓後運行python setup.py install
    手動安裝:將jieba目錄放置於目前的目錄或者site-packages目錄
    通過import jieba 來引用 (第一次import時需要構建Trie樹,需要幾秒時間)

Python 3.x 下的安裝

    目前master分支是只支援Python2.x 的

    Python3.x 版本的分支也已經基本可用: https://github.com/fxsjy/jieba/tree/jieba3k

    git clone https://github.com/fxsjy/jieba.git
    git checkout jieba3k
    python setup.py install

2 pymmseg-cpp: 是一個Python連接埠pymmseg-CPP,的rmmseg CPP項目的。 rmmseg-CPP是一個MMSEG中文分詞演算法的實現在一個Ruby的C + +介面。

3 Loso:Loso是一個用Python編寫的中文分詞系統。
它最初被開發為改善Plurk搜尋,但適用簡體中文。 

4 smallseg :

smallseg -- 開源的的輕量級的中文分詞工具包

特點:可自訂字典、速度快、可在Google App Engine上運行。

5 句讀:http://judou.org/

1 開放的中文分詞項目

2 高效能、高可用性分詞系統

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.