Java MapReduce詳解--(3)

來源:互聯網
上載者:User

標籤:hadoop   mapreduce   

如果Hadoop命令是以類名作為第一個參數,它就會啟動一個JVM來運行這個類。使用命令比直接使用Java更方便,因為前者把類的路徑(及其依賴關係)加入Hadoop的庫中,並獲得Hadoop的配置。要添加應用程式類的路徑,我們需要定義一個HADOOP_CLASSPATH環境變數,Hadoop指令碼會來執行相關操作。

注意:以本地(獨立)模式運行時,本書所有程式希望都以這種方式來設定HADOOP_CLA-SSPATH。命令必須在範例程式碼所在的檔案夾下被運行。

運行作業所得到的輸出提供了一些有用的資訊。(無法找到作業JAR檔案的相關資訊是意料之中的,因為我們是在本地模式下沒有JAR的情況下啟動並執行。在叢集上運行時,不會看到此警告。)例如,我們可以看到,這個作業被給予了一個IDjob_local_0001,並且它運行了一個map任務和一個reduce任務(使用attempt_local_0001_m_000000_0和attempt_local_0001_r_000000_0兩個ID)。在調試MapReduce作業時,知道作業和任務的ID是非常有用的。

輸出的最後一部分叫"計數器"(Counter),顯示了在Hadoop上啟動並執行每個作業產生的統計資訊。這些對檢查處理的資料量是否符合預期非常有用。例如,我們可以遵循整個系統中記錄的數目:5個map輸入產生了5個map的輸出,然後5個reduce輸入產生兩個reduce輸出。

輸出被寫入output目錄,其中每個reducer包括一個輸出檔案。作業包含一個reducer,所以我們只能找到一個檔案,名為part-00000:

1.%catoutput/part-00000

2.1949 111

3.1950 22

這個結果和我們之前手動尋找的結果一樣。我們可以把前面這個結果解釋為在1949年的最高氣溫記錄為11.1℃,而在1950年為2.2℃。

新的JavaMapreduce API

Hadoop最新版JavaMapReduce Release 0.20.0的API包括一個全新的MapReduce JavaAPI,有時也稱為"contextobject"(內容物件),旨在使API在未來更容易擴充。新的API類型上不相容以前的API,所以,以前的應用程式需要重寫才能使新的API發揮其作用。

新的API和舊的API之間有下面幾個明顯的區別。

新的API傾向於使用抽象類別,而不是介面,因為這更容易擴充。例如,你可以添加一個方法(用預設的實現)到一個抽象類別而不需修改類之前的實現方法。在新的API中,Mapper和Reducer是抽象類別。

新的API是在org.apache.hadoop.mapreduce包(和子包)中的。之前版本的API則是放在org.apache.hadoop.mapred中的。

新的API廣泛使用context object(內容物件),並允許使用者代碼與MapReduce系統進行通訊。例如,MapContext基本上充當著JobConf的OutputCollector和Reporter的角色。

新的API同時支援"推"和"拉"式的迭代。在這兩個新老API中,鍵/值記錄對被推mapper中,但除此之外,新的API允許把記錄從map()方法中拉出,這也適用於reducer。"拉"式的一個有用的例子是分批處理記錄,而不是一個接一個。

新的API統一了配置。舊的API有一個特殊的JobConf對象用於作業配置,這是一個對於Hadoop通常的Configuration對象的擴充(用於配置守護進程,請參見5.1節)。在新的API中,這種區別沒有了,所以作業配置通過Configuration來完成。

作業控制的執行由Job類來負責,而不是JobClient,它在新的API中已經蕩然無存。

例2-6使用新API重寫了MaxTemperature的代碼,不同之處用黑體字反白。

例2-6:使用新的context object(內容物件)MapReduce API在氣象資料集中尋找最高氣溫

1.public class NewMaxTemperature {

2.static class NewMaxTemperatureMapper

3.extends Mapper<LongWritable,Text, Text, IntWritable> {

4.

5.private static final intMISSING = 9999;

6.

7.public void map(LongWritable key, Text value,Context context)

8.throws IOException, InterruptedException {

9.

10. String line =value.toString();

11. String year =line.substring(15, 19);

12. int airTemperature;

13. if (line.charAt(87) == ‘+‘) { // parseInt doesn‘t like

14. leading plus signs

15. airTemperature =Integer.parseInt(line.substring(88, 92));

16. } else {

17. airTemperature =Integer.parseInt(line.substring(87, 92));

18. }

19. String quality =line.substring(92, 93);

20. if (airTemperature !=MISSING &&quality.matches("[01459]")){

21. context.write(new Text(year), new

22. IntWritable(airTemperature));

23. }

24. }

25.}

26.

27.static class NewMaxTemperatureReducer

28. extends Reducer<Text, IntWritable, Text,IntWritable> {

29.

30. public void reduce(Text key, Iterable<IntWritable> values,

31. Context context)

32. throws IOException, InterruptedException {

33.

34. int maxValue =Integer.MIN_VALUE;

35. for (IntWritable value : values) {

36. maxValue =Math.max(maxValue, value.get());

37. }

38. context.write(key, new IntWritable(maxValue));

39. }

40.}

41.

42.public static void main(String[] args) throws Exception {

43. if (args.length != 2) {

44. System.err.println("Usage: NewMaxTemperature<input path>

45. <output path>");

46. System.exit(-1);

47. }

48.

49. Job job =new Job();

50. job.setJarByClass(NewMaxTemperature.class);

51.

52. FileInputFormat.addInputPath(job, new Path(args[0]));

53. FileOutputFormat.setOutputPath(job, new Path(args[1]));

54.

55. job.setMapperClass(NewMaxTemperatureMapper.class);

56. job.setReducerClass(NewMaxTemperatureReducer.class);

57.

58. job.setOutputKeyClass(Text.class);

59. job.setOutputValueClass(IntWritable.class);

60.

61. System.exit(job.waitForCompletion(true) ? 0 : 1);

62.

63. }

64.} 

Java MapReduce詳解--(3)

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.