Natural Language Processing with Python,processingpython

來源:互聯網
上載者:User

Natural Language Processing with Python,processingpython

一年之前,我做夢也想不到會來這裡寫技術總結。誤打誤撞來到了上海西南某高校,成為了文科專業的工科男,現在每天除了膜ha,就是惡補CS。導師是做計算語言學的,所以當務之急就是先自學電腦自然語言處理,打好底子準備做科研(認真臉)。

進入正題,從圖書館找了本“Natural Language Processing with Python” (影印版),書長這個樣子,作者是Steven Bird, Ewan Klein和Edward Loper。粘貼個豆瓣連結供參考:https://book.douban.com/subject/5336893/

IDE: PyCharmIDE我選了PyCharm,據說很好用。下載及安裝方法如下:1.Python官網下載Python,開啟terminal,輸入python顯示版本資訊2.下載Python開發的IDE PyCharm,Professional版的啟用碼可以求助度娘

關於Python檔案編碼聲明1.位置:必須放在python檔案的第一行或第二行2.格式:a. 帶等號的
1 #coding=<encoding name>

           b. 帶冒號的,最常見,大多數編輯器都可以識別               

1 #!/usr/bin/python2 # -*- coding: <encoding name> -*-             
           c. vim的:
1 #!/usr/bin/python               2 # vim: set fileencoding=<encoding name>
3.作用:告訴python interpreter如何解釋字串的編碼           如果沒有檔案編碼類別型聲明,則python預設以ASCII編碼去處理。           如果沒有聲明代碼,但是檔案中又包含非ASCII編碼的字元的話,python解譯器去解釋python檔案自然會報錯。4.例子:第一行說明指令碼語言是python的;第二行用來指定檔案編碼為utf-8的 。   
1 #!/usr/bin/python                 2 # -*- coding: utf-8 -*-                          
5.注意:單個python源碼檔案中只允許用單一的編碼,不允許嵌入多種編碼,否則會報錯!!!6.Python分詞器+編譯器工作邏輯:            a. 讀取檔案            b. 不同的檔案,根據其聲明的編碼去解析為Unicode            c. 轉換為UTF-8字串            d. 針對UTF-8字串去分詞            e. 編譯之,建立Unicode對象7.UTF-8: 8-bit Unicode Transformation Format,是一種針對Unicode的可變長度字元編碼,又稱萬國碼。             總之,要想讓Python程式支援中文,就需要在Python源檔案開頭加上這樣一段編碼聲明。My First Python Program - Hello World!1.File --> New Project --> 選擇Project的儲存路徑(個人感覺很像R語言中working directory的設定)2.右鍵剛剛建好的project --> New --> Python File --> 給File命個名(個人感覺這就是指令檔,類似於R語言中的script)3.敲入檔案編碼聲明(其實並不必要,因為我們輸入英文"Hello World!",而不是中文)4.Hello World
1 print ("Hello World!") 
5.這時會發現運行及調試按鈕(綠色三角形)是灰色的,因為我們還沒有設定控制台。 python設定控制台1.點擊運行旁邊的黑色倒三角,進入Run/Debug Configurations配置介面(或者Run —> Edit Configurations)2.點擊綠色加號,建立一個配置項,並選擇python(因為是用原始碼是python程式)3.配置介面裡Name一欄寫一個名字,點擊Script選項,找到剛才寫的 .py 檔案4.點擊OK,自動返回編輯介面,這時運行及調試按鈕全部變綠5.點擊運行,觀看輸出結果Installing Packages in PyCharm - Mac1.Pycharm —> preference —> project interpreter2. +  for adding packages    -   for deleting packages    -> for updating packagesNLTK (Natural Language Toolkit)通過輸入以下代碼,調用NLTK這個包,然後下載我們所需的data sets(實際上就是書中所用的語料)
1 import nltk2 nltk.download()
Run and you will get to the NLTK DownloaderThe Collections tab on the downloader shows how the packages are grouped into sets, and you should select the line labeled book to obtain all data required for the examples and exercises in this book.我表示下載速度讓人捉雞,雖然MIT (Minhang Institute of Technology,譯作:閔行男子職業技術學院)的網速相當快,而且不用交網費!!!吃飯前,還是要膜一下!遛了。  

 

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.