python做SEO相關事情,我在之前的文章已經講到過,今天給大家分享python中文分詞的一些知識。
說到分詞,如果是做GOOGLE的朋友,那用python分詞很簡單,可以直接根據空格來分詞,或者有相關的nltk模組來處理。
中文分詞的話,就比較麻煩,因為不能通過空格來分詞,並且分詞還得考慮語義問題等。
下面列出幾個比較好的中文分詞:我用的比較多的是結巴分詞,下面詳細介紹下:
1 結巴分詞 0.22 發布,Python 中文分片語件
jieba 支援三種分詞模式:
精確模式,試圖將句子最精確地切開,適合文本分析;
全模式,把句子中所有的可以成詞的詞語都掃描出來, 速度非常快,但是不能解決歧義;
搜尋引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜尋引擎分詞。
並且有5個功能:1分詞 2添加自訂字典 3 關鍵詞提取 4 詞性標註 5 並行分詞
Python 2.x 下的安裝
全自動安裝:easy_install jieba 或者 pip install jieba
半自動安裝:先下載http://pypi.python.org/pypi/jieba/ ,解壓後運行python setup.py install
手動安裝:將jieba目錄放置於目前的目錄或者site-packages目錄
通過import jieba 來引用 (第一次import時需要構建Trie樹,需要幾秒時間)
Python 3.x 下的安裝
目前master分支是只支援Python2.x 的
Python3.x 版本的分支也已經基本可用: https://github.com/fxsjy/jieba/tree/jieba3k
git clone https://github.com/fxsjy/jieba.git
git checkout jieba3k
python setup.py install
2 pymmseg-cpp: 是一個Python連接埠pymmseg-CPP,的rmmseg CPP項目的。 rmmseg-CPP是一個MMSEG中文分詞演算法的實現在一個Ruby的C + +介面。
3 Loso:Loso是一個用Python編寫的中文分詞系統。
它最初被開發為改善Plurk搜尋,但適用簡體中文。
4 smallseg :
smallseg -- 開源的的輕量級的中文分詞工具包
特點:可自訂字典、速度快、可在Google App Engine上運行。
5 句讀:http://judou.org/
1 開放的中文分詞項目
2 高效能、高可用性分詞系統