Python 中文分詞工具 ——結巴分詞的使用方法總結

來源:互聯網
上載者:User

結巴分詞工具的安裝及基本用法,昨天的部落格中已經有所描述。今天要說的內容與實際應用更貼近——從文本中讀取中文資訊,利用結巴分詞工具進行分詞及詞性標註。

範例程式碼如下:

#coding=utf-8import jiebaimport jieba.posseg as psegimport timet1=time.time()f=open("t_with_splitter.txt","r") #讀取文本string=f.read().decode("utf-8")words = pseg.cut(string) #進行分詞result=""  #記錄最終結果的變數for w in words:     result+= str(w.word)+"/"+str(w.flag) #加詞性標註f=open("t_with_POS_tag.txt","w")  #將結果儲存到另一個文檔中f.write(result)f.close()t2=time.time()print("分詞及詞性標註完成,耗時:"+str(t2-t1)+"秒。") #反饋結果
相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.