標籤:hadoop mapreduce
如果Hadoop命令是以類名作為第一個參數,它就會啟動一個JVM來運行這個類。使用命令比直接使用Java更方便,因為前者把類的路徑(及其依賴關係)加入Hadoop的庫中,並獲得Hadoop的配置。要添加應用程式類的路徑,我們需要定義一個HADOOP_CLASSPATH環境變數,Hadoop指令碼會來執行相關操作。
注意:以本地(獨立)模式運行時,本書所有程式希望都以這種方式來設定HADOOP_CLA-SSPATH。命令必須在範例程式碼所在的檔案夾下被運行。
運行作業所得到的輸出提供了一些有用的資訊。(無法找到作業JAR檔案的相關資訊是意料之中的,因為我們是在本地模式下沒有JAR的情況下啟動並執行。在叢集上運行時,不會看到此警告。)例如,我們可以看到,這個作業被給予了一個IDjob_local_0001,並且它運行了一個map任務和一個reduce任務(使用attempt_local_0001_m_000000_0和attempt_local_0001_r_000000_0兩個ID)。在調試MapReduce作業時,知道作業和任務的ID是非常有用的。
輸出的最後一部分叫"計數器"(Counter),顯示了在Hadoop上啟動並執行每個作業產生的統計資訊。這些對檢查處理的資料量是否符合預期非常有用。例如,我們可以遵循整個系統中記錄的數目:5個map輸入產生了5個map的輸出,然後5個reduce輸入產生兩個reduce輸出。
輸出被寫入output目錄,其中每個reducer包括一個輸出檔案。作業包含一個reducer,所以我們只能找到一個檔案,名為part-00000:
1.%catoutput/part-00000
2.1949 111
3.1950 22
這個結果和我們之前手動尋找的結果一樣。我們可以把前面這個結果解釋為在1949年的最高氣溫記錄為11.1℃,而在1950年為2.2℃。
新的JavaMapreduce API
Hadoop最新版JavaMapReduce Release 0.20.0的API包括一個全新的MapReduce JavaAPI,有時也稱為"contextobject"(內容物件),旨在使API在未來更容易擴充。新的API類型上不相容以前的API,所以,以前的應用程式需要重寫才能使新的API發揮其作用。
新的API和舊的API之間有下面幾個明顯的區別。
新的API傾向於使用抽象類別,而不是介面,因為這更容易擴充。例如,你可以添加一個方法(用預設的實現)到一個抽象類別而不需修改類之前的實現方法。在新的API中,Mapper和Reducer是抽象類別。
新的API是在org.apache.hadoop.mapreduce包(和子包)中的。之前版本的API則是放在org.apache.hadoop.mapred中的。
新的API廣泛使用context object(內容物件),並允許使用者代碼與MapReduce系統進行通訊。例如,MapContext基本上充當著JobConf的OutputCollector和Reporter的角色。
新的API同時支援"推"和"拉"式的迭代。在這兩個新老API中,鍵/值記錄對被推mapper中,但除此之外,新的API允許把記錄從map()方法中拉出,這也適用於reducer。"拉"式的一個有用的例子是分批處理記錄,而不是一個接一個。
新的API統一了配置。舊的API有一個特殊的JobConf對象用於作業配置,這是一個對於Hadoop通常的Configuration對象的擴充(用於配置守護進程,請參見5.1節)。在新的API中,這種區別沒有了,所以作業配置通過Configuration來完成。
作業控制的執行由Job類來負責,而不是JobClient,它在新的API中已經蕩然無存。
例2-6使用新API重寫了MaxTemperature的代碼,不同之處用黑體字反白。
例2-6:使用新的context object(內容物件)MapReduce API在氣象資料集中尋找最高氣溫
1.public class NewMaxTemperature {
2.static class NewMaxTemperatureMapper
3.extends Mapper<LongWritable,Text, Text, IntWritable> {
4.
5.private static final intMISSING = 9999;
6.
7.public void map(LongWritable key, Text value,Context context)
8.throws IOException, InterruptedException {
9.
10. String line =value.toString();
11. String year =line.substring(15, 19);
12. int airTemperature;
13. if (line.charAt(87) == ‘+‘) { // parseInt doesn‘t like
14. leading plus signs
15. airTemperature =Integer.parseInt(line.substring(88, 92));
16. } else {
17. airTemperature =Integer.parseInt(line.substring(87, 92));
18. }
19. String quality =line.substring(92, 93);
20. if (airTemperature !=MISSING &&quality.matches("[01459]")){
21. context.write(new Text(year), new
22. IntWritable(airTemperature));
23. }
24. }
25.}
26.
27.static class NewMaxTemperatureReducer
28. extends Reducer<Text, IntWritable, Text,IntWritable> {
29.
30. public void reduce(Text key, Iterable<IntWritable> values,
31. Context context)
32. throws IOException, InterruptedException {
33.
34. int maxValue =Integer.MIN_VALUE;
35. for (IntWritable value : values) {
36. maxValue =Math.max(maxValue, value.get());
37. }
38. context.write(key, new IntWritable(maxValue));
39. }
40.}
41.
42.public static void main(String[] args) throws Exception {
43. if (args.length != 2) {
44. System.err.println("Usage: NewMaxTemperature<input path>
45. <output path>");
46. System.exit(-1);
47. }
48.
49. Job job =new Job();
50. job.setJarByClass(NewMaxTemperature.class);
51.
52. FileInputFormat.addInputPath(job, new Path(args[0]));
53. FileOutputFormat.setOutputPath(job, new Path(args[1]));
54.
55. job.setMapperClass(NewMaxTemperatureMapper.class);
56. job.setReducerClass(NewMaxTemperatureReducer.class);
57.
58. job.setOutputKeyClass(Text.class);
59. job.setOutputValueClass(IntWritable.class);
60.
61. System.exit(job.waitForCompletion(true) ? 0 : 1);
62.
63. }
64.}
Java MapReduce詳解--(3)