文本分類專題(ultimate 版)絕對是目前最全的C++版開源文本分類代碼和最令人耳目一新的實驗解釋

來源:互聯網
上載者:User

最終版本的文本分類代碼、語料、以及中間檔案都已經開源共用見: http://www.cnblogs.com/finallyliuyu/archive/2012/01/15/2322721.html。由於資料和程式規模比較大,就不在部落格園上傳了。大家可以自己註冊下載。

(註:轉載請註明作者和出處 作者:finallyliuyu  出處:部落格園)

適用人群:文本分類初學者、新手、菜鳥、業餘愛好者

目的:1.將書本上關於文本分類的相關內容,如分類器、特徵詞選擇演算法等,用程式實現,讓入門者對文本分類有個感性的、具體的瞭解,畢竟數學公式還是蠻抽象的;

         2.“盡信書不如無書”,“紙上得來終覺淺,絕知此事要躬行”,藉助於此平台可以對書本上的一些關於分類器、特徵詞選擇演算法的結論進行驗證;

        3.寫給我自己,體驗 “the magic of mathematics” 。

1.擷取語料庫

方法一:搜狗2008版語料庫;處理常式見《菜鳥學習C++練筆之整理搜狗2008版語料庫--擷取分類語料庫》

方法二:finallyliuyu在部落格園空間提供的語料庫參見 《獻給熱衷於自然語言處理的業餘愛好者的中文新聞分類語料庫之二》

2. 文本分類系統設計架構圖

 

預先處理過程流程圖

分類別模組流程圖:

 

 

3. 各部分代碼講解

預先處理模組

3.1建立詞典

3.2全域DF特徵詞選擇演算法

3.3局部DF特徵詞選擇演算法或者按類別DF特徵詞選擇演算法

3.4卡方特徵詞選擇演算法

3.5資訊增益法以及點互資訊法

3.6 VSM模型建立方法

分類別模組

3.7 KNN分類演算法

3.8 準確率,召回率,F值計算

 

4.  程式調用說明:

4.1 文本分類step by step 1

4.2 文本分類 step by step 2

 

 

 5。 對分類問題特徵詞選擇演算法的一點見解(重點推薦)

6。資源下載(注意右鍵點擊用迅雷軟體方可下載):

空間提供方:部落格園。再次感謝部落格園團隊和DUDU

實驗中用到的語料庫  注意:語料庫為MSSQL2000備份格式,如何還原請大家自己查閱相關資料,網路上有很多這方面的知識也就不贅述了。

程式資源  

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.