標籤:hadoop wordcount eclipse
Eclipse執行Hadoop WordCount
前期工作
我的Eclipse是安裝在windows下的,通過Eclipse執行程式串連Hadoop,需要讓虛擬機器的訪問地址和原生訪問地址保持在同一域內,虛擬機器的地址更改前面的文章介紹過了,如果想改windows本機ip地址,開啟“網路和共用中心“,點擊左側菜單”更改適配器設定“,選擇相應串連網路進行IpV4屬性地址修改即可。我虛擬機器地址為192.168.3.137
準備工作
地址配置好之後,在Eclipse上要安裝Hadoop的外掛程式(你可以參考源碼自行修改)。
開啟Eclipse安裝路徑---\eclipse\plugins,把hadoop-eclipse-plugin-1.1.2.jar放到這個目錄下。
windows本機建立目錄(本人在E:\hadoopMapReduceDir),從Linux的Hadoop安裝包內複製所有jar放到這個目錄下備用。
配置工作
開啟Eclipse,在功能表列點擊Window,showView選擇Other開啟選擇顯示的視窗,如下
在MapReduceTools 目錄下找到這隻大象,將它拖到Eclipse底部顯示(和Console放一塊)
點擊大象,在下邊空白區右擊 選擇New Hadooplocation(見)
開啟建立配置視窗,設定串連資訊,是原生串連配置名稱自己填寫,兩個連接埠和username 按圖填寫(Hadoop預設的連接埠)
點擊Eclipse功能表列Window ---》Preference,找到HadoopMap/Reduce,點擊之後在右側選擇匯入Hadoop jar的路徑,這樣以後建立Hadoop項目,jar包會自動從該路徑載入,路徑上面已設,添加進來
建立項目
點擊File---》other,開啟建立對話方塊,建立Map/ReduceProject項目
建立完成後你會看到jar包自動載入到項目之中
拷貝Linux下的src目錄下的example java項目到剛剛建立的工程下,
裡面就有WordCount.java
Linux下啟動Hadoop(用JPS檢查是否已啟動),在Eclipse串連,串連成功後Hadoop目錄就會顯示如下
修改代碼
現在設定方面基本完成,接下來就是針對WordCount.java所做的修改和HDFS路徑配置
開啟WordCount.java(可能會報錯),
將main方法更改如下:
如果GenericOptionsParser報錯,將Hadoop-core-1.1.2.jar加到項目中(或放到jar配置路徑)。
建立a.txt檔案,輸入下面內容,儲存
在hadoopname下user—》hadoop目錄建立input檔案夾,將檔案a.txt上傳到HDFS input上,過程如下(不要建立output目錄,不然執行會報錯,)
如果HDFS已有,可Linux使用命令hadoop fs -rmr /output刪除)
在選擇Wordcount.java,右擊run as ---》run configurations,開啟Arguments填寫input out路徑(注意:input和output路徑中間是有空格的),這裡我設定查詢input下所有檔案的單詞出現次數。
右擊WordCount.java,run as -àrun on hadoop 執行
執行結束後,重新整理DFS Locations/ use/hadoop
自動產生output檔案夾,點擊可以看到執行結果。最終結果存放在part-r-00000中,雙擊查看即可
Eclipse執行Hadoop WordCount