Hadoop2.0為Hadoop演繹完美起點

來源:互聯網
上載者:User
關鍵字 演繹 就是 大資料
在很多人的印象中,Hadoop似乎就是大資料的代名詞。 隨著大家深入瞭解大資料和Hadoop,對其也有了一個更深層次的瞭解,逐漸認識到Hadoop只是大資料的一個存儲工具。      不過這並不一定就是壞事。 把Hadoop當作廉價有效的存儲正好是Hadoop下一階段演進的的完美起點。 今年夏天就要亮相的Hadoop 2.0將會令資料倉儲中的資訊以及非結構化資料池前所未有地容易訪問。


  Hadoop大桶


  自成為大資料工具以來,Hadoop就是一個非常棒的資料存儲系統,但是需要開發JAVA應用來訪問資料的MapReduce學習起來卻比較困難。


  當然,還有別的辦法可以從Hadoop中獲取資訊。 Hbase資料是Hadoop的一部分,它可以讓使用者按照資料庫范式來處理資料。 Hive資料倉儲則可以讓你用類SQL的HiveSQL查詢語言來創建查詢並轉化為MapReduce任務。 不過Hadoop仍受限於單線程性。 MapReduce任務、 Hive查詢、Hbase操作,等等,這些都要輪流進行。


  這就是許多大資料供應商傾向于僅將Hadoop當作資料容器的原因,為了提高效率,他們在此基礎上再開發自己的工具來獲取或分析其中的資料。 儘管把Hadoop形容為一個大桶很形象,但是Hadoop使用者當中已經有人把它看作是資料大湖甚至資料海洋了。 不過光是規模大還是不行的,那些限制影響到了Hadoop的賣點。


  Hadoop的開發社區也意識到這個問題,隨著Hadoop即將反覆運算到新的版本,上述限制即將在很大程度上被解除


  YARN解決方案


  在Hadoop 2.0發佈經理Arun Murthy看來,其最重要的變化是MapReduce框架升級為Apache YARN,這將擴展Hadoop中可以應用的軟體種類和應用程度。 Arun Murthy本人就是YARN專案主管,他指出,Hadoop 1.0和2.0的區別在於,前者所有的事情都是面向批次處理的,而後者則允許多個應用同時在內部訪問資料。


相對於當前MapReduce系統能處理的事情,把這些功能分開使得Hadoop集群資源的管理更加強大。 其主要管理方式類似于作業系統對任務的處理,也就是說不再有一次一項操作的限制了。


  有了YARN,開發者就能夠直接在Hadoop內部來開發應用,而不是像許多協力廠商工具所做的那樣,在外面把資料篩選出來。


  Murthy稱,現在已經有供應商對在YARN框架內開發應用表現出興趣。 Murthy估計,Hadoop 2.0的強力Beta版有可能會在今年6月或7月推出,正式版則可能在8月發佈。


  如果YARN的確能履行其承諾的話,開發者將可以在原生的Hadoop平臺裡方便地接觸到許多的資料大湖大海,令搜尋有用資訊的任務更加流暢和便捷。 屆時,大資料會變得更加有用、更加大眾化。
相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.