Eclipse上運行第一個Hadoop執行個體 - WordCount(單詞統計程式)

來源:互聯網
上載者:User

標籤:style   blog   http   io   ar   color   os   使用   sp   

需求

  計算出檔案中每個單詞的頻數。要求輸出結果按照單詞的字母順序進行排序。每個單詞和其頻數佔一行,單詞和頻數之間有間隔。

  比如,輸入一個檔案,其內容如下:

  hello world

  hello hadoop

  hello mapreduce

  對應上面給出的輸入範例,其輸出範例為:

  hadoop 1

  hello 3

  mapreduce 1

  world 1

方案制定

  對該案例,可設計出如下的MapReduce方案:

  1. Map階段各節點完成由輸入資料到單詞切分的工作

  2. shuffle階段完成相同單詞的聚集再到分發到各個Reduce節點的工作 (shuffle階段是MapReduce的預設過程)

  3. Reduce階段負責接收所有單詞並計算各自頻數

小結

  WordCount是一個很經典的Hadoop樣本,它雖然簡單,但具有很大的代表性。

  從某個程度上來說也反映了其設計的初衷,對記錄檔的分析。

Eclipse上運行第一個Hadoop執行個體 - WordCount(單詞統計程式)

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.