最終版本的文本分類代碼、語料、以及中間檔案都已經開源共用見: http://www.cnblogs.com/finallyliuyu/archive/2012/01/15/2322721.html。由於資料和程式規模比較大,就不在部落格園上傳了。大家可以自己註冊下載。
(註:轉載請註明作者和出處 作者:finallyliuyu 出處:部落格園)
適用人群:文本分類初學者、新手、菜鳥、業餘愛好者
目的:1.將書本上關於文本分類的相關內容,如分類器、特徵詞選擇演算法等,用程式實現,讓入門者對文本分類有個感性的、具體的瞭解,畢竟數學公式還是蠻抽象的;
2.“盡信書不如無書”,“紙上得來終覺淺,絕知此事要躬行”,藉助於此平台可以對書本上的一些關於分類器、特徵詞選擇演算法的結論進行驗證;
3.寫給我自己,體驗 “the magic of mathematics” 。
1.擷取語料庫
方法一:搜狗2008版語料庫;處理常式見《菜鳥學習C++練筆之整理搜狗2008版語料庫--擷取分類語料庫》
方法二:finallyliuyu在部落格園空間提供的語料庫參見 《獻給熱衷於自然語言處理的業餘愛好者的中文新聞分類語料庫之二》
2. 文本分類系統設計架構圖
預先處理過程流程圖
分類別模組流程圖:
3. 各部分代碼講解
預先處理模組
3.1建立詞典
3.2全域DF特徵詞選擇演算法
3.3局部DF特徵詞選擇演算法或者按類別DF特徵詞選擇演算法
3.4卡方特徵詞選擇演算法
3.5資訊增益法以及點互資訊法
3.6 VSM模型建立方法
分類別模組
3.7 KNN分類演算法
3.8 準確率,召回率,F值計算
4. 程式調用說明:
4.1 文本分類step by step 1
4.2 文本分類 step by step 2
5。 對分類問題特徵詞選擇演算法的一點見解(重點推薦)
6。資源下載(注意右鍵點擊用迅雷軟體方可下載):
空間提供方:部落格園。再次感謝部落格園團隊和DUDU
實驗中用到的語料庫 注意:語料庫為MSSQL2000備份格式,如何還原請大家自己查閱相關資料,網路上有很多這方面的知識也就不贅述了。
程式資源