MultipleInputs.addInputPath注意點

來源:互聯網
上載者:User
關鍵字 name 時候 執行 裡面
MultipleInputs.addInputPath注意點 博客分類: Hadoop Hadoop&HTTP://www.aliyun.com/zixun/aggregation/37954.html"> nbsp; 原創,轉載請注明出處:





使用MultipleInputs.addInputPath添加多輸入源(超過兩個)的時候:


MultipleInputs.addInputPath(conf, new Path(otheArgs[0]), TextInputFormat.class,JoinNodeMapper2.class); MultipleInputs.addInputPath(conf, new Path(otheArgs[1]), TextInputFormat.class,JoinMemMapper2.class); MultipleInputs.addInputPath(conf, new Path(otheArgs[2]), TextInputFormat.class,JoinCPUMapper2.class);


我的檔案格式是:


otheArgs[0]指向的檔案格式:


key1 keyname1key2 keyname2


otheArgs[1]指向的檔案格式:


key1 valA1key2 valA2


otheArgs[2]指向的檔案格式:


key1 valB1key2 valB2





在elipse裡面運行指定參數的時候,如果otheArgs[2]和otheArgs[1]相同,那麼此時MultipleInputs只執行其中一條addInputPath語句,我的測試環境中測試出來的結果就是執行了


MultipleInputs.addInputPath(conf, new Path(otheArgs[2]), TextInputFormat.class,JoinCPUMapper2.class);


1.要求otheArgs[2]和otheArgs[1]要不一樣。


2.reduce之後生成檔是:


key1 keyname1 valA1key2 keyname2 valA2key1 keyname1 valB1key2 keyname2 valB2


而不是:


key1 keyname1 valA1 valB1key2 keyname2 valA2 valB2


所以要實現第二種join的結果,我211.html">覺得還是要使用MapReduce job流的相關控制了。








相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.