用Python做簡易的中文詞雲_

用Python做簡易的中文詞雲__Python

最後更新：2018-07-28 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

前言

在上一篇文章中，我們講解了在Ubuntu環境下安裝Anaconda，並且做出了英文的簡易詞雲。可能會有的同學嘗試把文章換成中文的，做出中文詞雲。我想大家得到的結果肯定是這樣的

中文與英文在編碼上是存在很多區別的，而且我們做英文詞雲的時候，在一篇文章中，單詞之間是通過空格分開的，但是中文並沒有使用空格。所有就有了上面的圖片。那麼中文如何分詞呢。我們需要用到一款工具，jieba（結巴）

準備工作

１．文本資料，作為分析的對象。這是必須的，這次我選用的是上一次相關的文本資料　　我有一個夢想的中文版本。做成Dream.txt檔案，儲存在和代碼相同的目錄下。２．Anaconda工具套裝，上一篇文章已經講過如何安裝和使用，這裡不在囉嗦。３．worldcloud ,作詞雲用的Python擴充工具包。４．jieba      中文分詞用的擴充包。５．simsum.tty　　中文字型包，用於顯示中文。

第一步

開啟終端輸入以下命令，安裝jieba擴充包

pip install jieba   //安裝很簡單，沒什麼可說的

繼續在終端輸入

jupyter notebook     //開啟代碼編輯器，並切換到存放Dream.txt的目錄下

如果你做了上次那個因為詞雲，那就用上次那個目錄就可以了，在代碼編輯器輸入以下代碼

file = open('Dream.txt')text = file.read()text

出現這樣的字樣，說明文本資料沒有問題，可以正常開啟。

分詞

在第二和第三行之間，插入以下代碼，進行分詞操作

import jieba　　　　　　　　　　　　　　　　　　　//匯入jieba分詞包text = ' '.join(jieba.cut(text))　　　　　　 　//對中文進行分詞

你將會看到以下的畫面，說明分詞成功了

詞雲產生

注釋掉代碼最後的text,以防幹擾。繼續在編輯器裡輸入

from wordcloud import WordCloudwordcloud = WordCloud().generate(text)

此時如果沒有報錯，也沒有任何輸出，那是不是詞雲就已經分析完成了呢。
並不是，但這次和上次的英文不一樣，因為我們要輸出中文的詞雲，所以我們
準備了simsum.tty的字型包，把它放在代碼相同的目錄下，然後在代碼編輯器輸入以下代碼：

from wordcloud import WordCloudwordcloud = WordCloud(font_path="simsun.ttf").generate(mytext)

依然沒有輸出，但這次離成功不遠了。

詞雲輸出

在代碼編輯器裡面輸入以下代碼：

%pylab inlineimport matplotlib.pyplot as pltplt.imshow(wordcloud, interpolation='bilinear')plt.axis("off")

你將看到以下結果，請無視警告

　　　　　　　　一張簡易的中文詞雲就做好啦。。。

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More