Hadoop之父勾勒大資料平台的未來

來源:互聯網
上載者:User

“大資料不是炒作,也不是泡沫。Hadoop在未來將繼續追隨Google的腳步。”Hadoop的創造者兼Apache Hadoop項目創始人Doug Cutting近日表示。

作為一個批處理計算引擎,Apache Hadoop是大資料核心的開源軟體架構。有一種說法是,Hadoop並不適用於真正即時資料可見度所需要的線上互動資料處理。事實是這樣的嗎?Hadoop的創造者兼Apache Hadoop項目創始人(現任Cloudera公司首席架構師)Doug Cutting說:“相信Hadoop擁有一個超越批處理的未來。

Hadoop的創造者兼Apache Hadoop項目創始人、Cloudera公司首席架構師 Doug Cutting

“批處理有其用武之地。例如,你需要移動大量資料並分析所有資料的時候。但我仍認為,人們真正想要的是批處理和線上計算的結合體。Hadoop將會成為企業未來主流資料處理系統的核心。” Cutting說。

Hadoop行至何處?

在剛剛結束的Strata Conference+Hadoop World會議上,Cutting解釋了Hadoop堆棧的核心思想,以及其未來的發展方向。“Hadoop被看作是一個批處理計算引擎,事實上,這是我們開始的地方(結合MapReduce)。MapReduce是一個很棒的工具,目前市場上有很多關於如何在MapReduce上部署各種演算法的書籍。”Cutting說。

MapReduce是一個編程模型,由Google公司設計,用於使用分散式運算批量平行處理海量資料。MapReduce得到一個輸入,然後將其分成很多更小的子問題,這些問題被分配到不同節點來平行處理。然後,它們重新組合子問題的答案以形成輸出。

“這是非常有效,”Cutting表示,“它允許你把計算移向資料。這樣一來,當你處理資料時就不需要到處複製資料,並且它還形成了一個共用平台。構建分布式系統是一個複雜的過程,所以我們不希望反反覆複重新部署它。MapReduce被證明是一個堅實的基礎,依託MapReduce開發出了很多工具,例如Pig和Hive。”Hadoop關鍵特性

為了證明Hadoop大資料平台的通用性,Cutting描述了他所認為的Hadoop的兩個核心主題。首先,Hadoop平台具有很好的可擴充性,不僅適用於儲存在記憶體中的小資料集,還能夠擴充到處理龐大的資料集。

“評估可擴充性的一個關鍵因素是經濟承受能力。我們在通用硬體平台上運行是因為它允許你進一步地擴充。如果你可以購買10倍的儲存量,那麼就可以儲存10倍的資料量。所以,經濟承受能力是關鍵,這也是我們使用通用硬體的原因,因為它是最經濟實惠的平台。”Cutting說。

Hadoop另一個關鍵特性在於開源。Cutting指出,開源軟體是非常實惠的。開發人員可以向供應商付費,但是為了他們所提供的價值而付費。開發人員不需要年複一年地付費,隨著時間的推移,供應商需要通過向你提供價值來贏得開發人員的信任和信心。此外,對於Hadoop而言,使用者可以以原始的形態儲存資料,然後,當你使用資料時,再使用不同的模式。

大資料領域另一種流行的做法是,在通常情況下,與更聰明的演算法相比,分析更多的資料能夠協助你更好地瞭解你的問題。也就是說,你應該花更多的時間來收集資料,而不是調整較小資料集所採用的演算法。直觀地說,這很像是具有更高解析度的映像,如果你試圖分析圖片,你應該選擇放大高解析度圖片,而不是低解析度映像。

Cutting還指出,批處理並不算是Hadoop的典型特性。例如,仿效GoogleBigTable的HBase是Hadoop堆棧的一部分,它已經成為非常成功的開源非關係型分散式資料庫。HBase是一個線上計算系統,而不是批處理計算系統。“HBase也支援批處理,它與HDFS以及Hadoop堆棧的其他組件共用儲存。我認為這也是HBase如此受歡迎的原因之一。HBase被整合到系統的其他部分中,而不是成為一個獨立的系統。它可以與堆棧的其他組件進行共用,可以對可用性、安全性和災難恢複等特性進行共用。”Cutting解釋說。

技術未來展望

如果Hadoop不僅僅是批處理計算平台,而是成為一個更為通用的資料處理平台,它將會變成什麼樣,它到底將走向何方?Cutting表示,我們當然希望擁有開源的大資料平台,並且能夠在通用硬體上運行。同時,我們還希望它具有線性擴充能力,也就是說,如果你需要儲存10倍資料,只需要購買10倍的硬體就可以了。無論你的資料集變得有多大,都可以採用這樣的方式進行擴充。

效能方面同樣是如此。對於批處理效能,如果你需要更大的批處理輸送量或更小的延遲,你只需要增加硬體數量即可。而對於互動式查詢,也是同樣。增加硬體就能為你帶來效能和資料處理量級方面的線性擴充。Cutting還表示:“人們通常會認為,採用大資料平台後,需要放棄某些東西。我不這樣認為的。從長期來看,我們不需要放棄任何的功能。”

對於Hadoop未來的技術發展方向,Cutting表示Google已經給出了相關路線圖。“Google發布GFS和MapReduce的論文後,我們很快地將其複製到Hadoop項目中。這些年以來,Google在很多方面激勵著Hadoop開源堆棧。Google的Sawzall系統催生了Pig和Hive,而BigTable則直接啟發了HBase。我很激動地看到,今年Google發表了名為Spanner的論文,其中介紹了在分散式資料庫系統實現傳輸的機制。可能很多人都會認為這不會很快成為現實,但卻為我們指明了前進的方向。”Cutting說。

Cutting指出,作為一項複雜技術,Spanner並不會很快成為Hadoop的一部分,但它確實明確了技術發展的方向。他同時還提到了Impala(Cloudera最新發行的資料庫引擎),它可以使用SQL查詢儲存在HBase中的資料集。Impala將為使用者帶來互動式線上查詢的新體驗,它同樣追隨了Google的一些研究成果,已經發布了一段時間。Cutting認為,Impala將發展成為一個通用的技術平台。

“我們已經知曉前進方向,並且知道如何去實現目標。所以,我鼓勵大家現在就開始使用Hadoop,因為在未來你將收穫更多。”Cutting說。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.