來源:互聯網
上載者:User
關鍵字
我們
我們
谷歌
我們
谷歌
很
我們
谷歌
很
可以
我們
谷歌
很
可以
大資料
「大資料不是炒作,也不是泡沫。 Hadoop在未來將繼續追隨谷歌的腳步。 」Hadoop的創造者兼Apache Hadoop專案創始人Doug Cutting近日表示。
作為一個批次處理計算引擎,Apache Hadoop是大資料核心的開源軟體框架。 有一種說法是,Hadoop並不適用于真正即時資料可見度所需要的線上互動資料處理。 事實是這樣的嗎? Hadoop的創造者兼Apache Hadoop專案創始人(現任Cloudera公司首席架構師)Doug Cutting說:「相信Hadoop擁有一個超越批次處理的未來。 」
「批次處理有其用武之地。 例如,你需要移動大量資料並分析所有資料的時候。 但我仍認為,人們真正想要的是批次處理和線上計算的結合體。 Hadoop將會成為企業未來主流資料處理系統的內核。 」 Cutting說。
Hadoop行至何處?
在剛剛結束的Strata Conference+Hadoop World會議上,Cutting解釋了Hadoop堆疊的核心思想,以及其未來的發展方向。 「Hadoop被看作是一個批次處理計算引擎,事實上,這是我們開始的地方(結合MapReduce)。 MapReduce是一個很棒的工具,目前市場上有很多關於如何在MapReduce上部署各種演算法的書籍。 」Cutting說。
MapReduce是一個程式設計模型,由谷歌公司設計,用於使用分散式運算批量並行處理海量資料。 MapReduce得到一個輸入,然後將其分成很多更小的子問題,這些問題被分配到不同節點來並行處理。 然後,它們重新組合子問題的答案以形成輸出。
「這是非常有效的,」Cutting表示,「它允許你把計算移向資料。 這樣一來,當你處理資料時就不需要到處複製資料,並且它還形成了一個共用平臺。 構建分散式系統是一個複雜的過程,所以我們不希望反反復複重新部署它。 MapReduce被證明是一個堅實的基礎,依託MapReduce開發出了很多工具,例如 Pig和Hive。 」
Hadoop關鍵特性
為了證明Hadoop大資料平臺的通用性,Cutting描述了他所認為的Hadoop的兩個核心主題。 首先,Hadoop平臺具有很好的可擴充性,不僅適用于存儲在記憶體中的小資料集,還能夠擴展到處理龐大的資料集。
「評估可擴充性的一個關鍵因素是經濟承受能力。 我們在通用硬體平臺上運行是因為它允許你進一步地擴展。 如果你可以購買10倍的存儲量,那麼就可以存儲10倍的資料量。 所以,經濟承受能力是關鍵,這也是我們使用通用硬體的原因,因為它是最經濟實惠的平臺。 」Cutting說。
Hadoop另一個關鍵特性在於開源。 Cutting指出,開源軟體是非常實惠的。 開發者可以向供應商付費,但是為了他們所提供的價值而付費。 開發者不需要年復一年地付費,隨著時間的推移,供應商需要通過向你提供價值來贏得開發者的信任和信心。 此外,對於Hadoop而言,使用者可以以原始的形態保存資料,然後,當你使用資料時,再使用不同的模式。
大資料領域另一種流行的做法是,在通常情況下,與更聰明的演算法相比,分析更多的資料能夠説明你更好地瞭解你的問題。 也就是說,你應該花更多的時間來收集資料,而不是調整較小資料集所採用的演算法。 直觀地說,這很像是具有更高解析度的圖像,如果你試圖分析圖片,你應該選擇放大高解析度圖片,而不是低解析度圖像。
Cutting還指出,批次處理並不算是Hadoop的典型特性。 例如,仿效谷歌BigTable的HBase是Hadoop堆疊的一部分,它已經成為非常成功的開源非關聯式分散式資料庫。 HBase是一個線上計算系統,而不是批次處理計算系統。
「HBase 也支援批次處理,它與HDFS以及Hadoop堆疊的其他元件共用存儲。 我認為這也是HBase如此受歡迎的原因之一。 HBase被整合到系統的其他部分中,而不是成為一個獨立的系統。 它可以與堆疊的其他元件進行共用,可以對可用性、安全性和災害復原等特性進行共用。 」Cutting解釋說。
技術未來展望
如果Hadoop不僅僅是批次處理計算平臺,而是成為一個更為通用的資料處理平臺,它將會變成什麼樣,它到底將走向何方? Cutting表示,我們當然希望擁有開源的大資料平臺,並且能夠在通用硬體上運行。 同時,我們還希望它具有線性擴展能力,也就是說,如果你需要存儲10倍資料,只需要購買10倍的硬體就可以了。 無論你的資料集變得有多大,都可以採用這樣的方式進行擴展。
性能方面同樣是如此。 對於批次處理性能,如果你需要更大的批次處理輸送量或更小的延遲,你只需要增加硬體數量即可。 而對於互動式查詢,也是同樣。 增加硬體就能為你帶來性能和資料處理量級方面的線性擴展。 Cutting還表示:「人們通常會認為,採用大資料平臺後,需要放棄某些東西。 我不這樣認為的。 從長期來看,我們不需要放棄任何的功能。 」
對於Hadoop未來的技術發展方向,Cutting表示谷歌已經給出了相關路線圖。 「谷歌發佈GFS和MapReduce的論文後,我們很快地將其複製到Hadoop專案中。 這些年以來,谷歌在很多方面激勵著Hadoop開源堆疊。 谷歌的Sawzall系統催生了Pig和Hive,而BigTable則直接啟發了HBase。 我很激動地看到,今年谷歌發表了名為Spanner的論文,其仲介紹了在分散式資料庫系統實現傳輸的機制。 可能很多人都會認為這不會很快成為現實,但卻為我們指明瞭前進的方向。 」Cutting說。
Cutting指出,作為一項複雜技術,Spanner並不會很快成為Hadoop的一部分,但它確實明確了技術發展的方向。 他同時還提到了Impala(Cloudera最新發佈的資料庫引擎),它可以使用SQL查詢存儲在HBase中的資料集。 Impala將為使用者帶來互動式線上查詢的新體驗,它同樣追隨了谷歌的一些研究成果,已經發佈了一段時間。 Cutting認為,Impala將發展成為一個通用的技術平臺。
「我們已經知曉前進方向,並且知道如何去實現目標。 所以,我鼓勵大家現在就開始使用Hadoop,因為在未來你將收穫更多。 」Cutting說。
「大資料不是炒作,也不是泡沫。 Hadoop在未來將繼續追隨谷歌的腳步。 」Hadoop的創造者兼Apache Hadoop專案創始人Doug Cutting近日表示。
作為一個批次處理計算引擎,Apache Hadoop是大資料核心的開源軟體框架。 有一種說法是,Hadoop並不適用于真正即時資料可見度所需要的線上互動資料處理。 事實是這樣的嗎? Hadoop的創造者兼Apache Hadoop專案創始人(現任Cloudera公司首席架構師)Doug Cutting說:「相信Hadoop擁有一個超越批次處理的未來。 」
「批次處理有其用武之地。 例如,你需要移動大量資料並分析所有資料的時候。 但我仍認為,人們真正想要的是批次處理和線上計算的結合體。 Hadoop將會成為企業未來主流資料處理系統的內核。 」 Cutting說。
Hadoop行至何處?
在剛剛結束的Strata Conference+Hadoop World會議上,Cutting解釋了Hadoop堆疊的核心思想,以及其未來的發展方向。 「Hadoop被看作是一個批次處理計算引擎,事實上,這是我們開始的地方(結合MapReduce)。 MapReduce是一個很棒的工具,目前市場上有很多關於如何在MapReduce上部署各種演算法的書籍。 」Cutting說。
MapReduce是一個程式設計模型,由谷歌公司設計,用於使用分散式運算批量並行處理海量資料。 MapReduce得到一個輸入,然後將其分成很多更小的子問題,這些問題被分配到不同節點來並行處理。 然後,它們重新組合子問題的答案以形成輸出。
「這是非常有效的,」Cutting表示,「它允許你把計算移向資料。 這樣一來,當你處理資料時就不需要到處複製資料,並且它還形成了一個共用平臺。 構建分散式系統是一個複雜的過程,所以我們不希望反反復複重新部署它。 MapReduce被證明是一個堅實的基礎,依託MapReduce開發出了很多工具,例如 Pig和Hive。 」
Hadoop關鍵特性
為了證明Hadoop大資料平臺的通用性,Cutting描述了他所認為的Hadoop的兩個核心主題。 首先,Hadoop平臺具有很好的可擴充性,不僅適用于存儲在記憶體中的小資料集,還能夠擴展到處理龐大的資料集。
「評估可擴充性的一個關鍵因素是經濟承受能力。 我們在通用硬體平臺上運行是因為它允許你進一步地擴展。 如果你可以購買10倍的存儲量,那麼就可以存儲10倍的資料量。 所以,經濟承受能力是關鍵,這也是我們使用通用硬體的原因,因為它是最經濟實惠的平臺。 」Cutting說。
Hadoop另一個關鍵特性在於開源。 Cutting指出,開源軟體是非常實惠的。 開發者可以向供應商付費,但是為了他們所提供的價值而付費。 開發者不需要年復一年地付費,隨著時間的推移,供應商需要通過向你提供價值來贏得開發者的信任和信心。 此外,對於Hadoop而言,使用者可以以原始的形態保存資料,然後,當你使用資料時,再使用不同的模式。
大資料領域另一種流行的做法是,在通常情況下,與更聰明的演算法相比,分析更多的資料能夠説明你更好地瞭解你的問題。 也就是說,你應該花更多的時間來收集資料,而不是調整較小資料集所採用的演算法。 直觀地說,這很像是具有更高解析度的圖像,如果你試圖分析圖片,你應該選擇放大高解析度圖片,而不是低解析度圖像。
Cutting還指出,批次處理並不算是Hadoop的典型特性。 例如,仿效谷歌BigTable的HBase是Hadoop堆疊的一部分,它已經成為非常成功的開源非關聯式分散式資料庫。 HBase是一個線上計算系統,而不是批次處理計算系統。
「HBase 也支援批次處理,它與HDFS以及Hadoop堆疊的其他元件共用存儲。 我認為這也是HBase如此受歡迎的原因之一。 HBase被整合到系統的其他部分中,而不是成為一個獨立的系統。 它可以與堆疊的其他元件進行共用,可以對可用性、安全性和災害復原等特性進行共用。 」Cutting解釋說。
技術未來展望
如果Hadoop不僅僅是批次處理計算平臺,而是成為一個更為通用的資料處理平臺,它將會變成什麼樣,它到底將走向何方? Cutting表示,我們當然希望擁有開源的大資料平臺,並且能夠在通用硬體上運行。 同時,我們還希望它具有線性擴展能力,也就是說,如果你需要存儲10倍資料,只需要購買10倍的硬體就可以了。 無論你的資料集變得有多大,都可以採用這樣的方式進行擴展。
性能方面同樣是如此。 對於批次處理性能,如果你需要更大的批次處理輸送量或更小的延遲,你只需要增加硬體數量即可。 而對於互動式查詢,也是同樣。 增加硬體就能為你帶來性能和資料處理量級方面的線性擴展。 Cutting還表示:「人們通常會認為,採用大資料平臺後,需要放棄某些東西。 我不這樣認為的。 從長期來看,我們不需要放棄任何的功能。 」
對於Hadoop未來的技術發展方向,Cutting表示谷歌已經給出了相關路線圖。 「谷歌發佈GFS和MapReduce的論文後,我們很快地將其複製到Hadoop專案中。 這些年以來,谷歌在很多方面激勵著Hadoop開源堆疊。 谷歌的Sawzall系統催生了Pig和Hive,而BigTable則直接啟發了HBase。 我很激動地看到,今年谷歌發表了名為Spanner的論文,其仲介紹了在分散式資料庫系統實現傳輸的機制。 可能很多人都會認為這不會很快成為現實,但卻為我們指明瞭前進的方向。 」Cutting說。
Cutting指出,作為一項複雜技術,Spanner並不會很快成為Hadoop的一部分,但它確實明確了技術發展的方向。 他同時還提到了Impala(Cloudera最新發佈的資料庫引擎),它可以使用SQL查詢存儲在HBase中的資料集。 Impala將為使用者帶來互動式線上查詢的新體驗,它同樣追隨了谷歌的一些研究成果,已經發佈了一段時間。 Cutting認為,Impala將發展成為一個通用的技術平臺。
「我們已經知曉前進方向,並且知道如何去實現目標。 所以,我鼓勵大家現在就開始使用Hadoop,因為在未來你將收穫更多。 」Cutting說。
(責任編輯:呂光)