大資料之文章分類

來源:互聯網
上載者:User

標籤:

記下來 不然以後又忘記了。

  

AnalysisEntry:總體調動,調類的順序;
WordFrequenceInDoc:提取中文,分詞,去停詞,統計詞頻;
在去停詞時,要做一個詞庫,my.dic或者stopword.dic
WordCountsInDoc:統計每個文檔的單詞數目;
WordsInCorpusTFIDF: 統計單詞在多少個文檔出現,計算TFIDF,建立詞表;

SortTFIDF: 對TFIDF進行排序;

CombinationKey,類是合成一個鍵(兩個欄位或多個欄位合成為一個key),以鍵排序,在SortTFIDF中調用;
DefinedComparator 定義一個比較子,排序的時候就要調用此定義進行比較;
DefinedPartition 定義分區,Partitioner的作用是對Mappper產生的中間結果進行分區,以便將同一分組的資料交給同一個Reducer處理,它直接影響Reduce階段的負載平衡。這裡定義的DefinePartition就是為了按Key來分區;

DocVetorBuild :建立詞向量 這是因為在使用SVM演算法的時候,輸入時,使用的是向量
UseSVM :調用SVM演算法,進行分類;
SVM屬於監督類演算法,需要把資料做為兩部分,一部分時作為訓練集,一部分作為測試集(也就是說,
先人工分好一部分資料,作為標準訓練,而來新的資料的時候,就用來測試(預測);

Test.java 用來測試一些功能,測試好後,在用;

大資料之文章分類

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.