解密大資料良藥——Hadoop的十二個事實

來源:互聯網
上載者:User

現如今,Apache Hadoop已經無人不知無人不曉。 當年雅虎搜索工程師Doug Cutting開發出這個用以創建分散式運算機環境的開源軟體庫,並以自己兒子的大象玩偶為其命名的時候,誰能想到它有一天會佔據「大資料」技術的頭把交椅呢。

雖然Hadoop伴隨大資料一同火爆起來,但相信還是有許多使用者對於它不甚瞭解。 在上周名的TDWI解決方案峰會中, TDWI研究主任兼行業分析師Philip Russom發表了「關於Hadoop的12點事實」的主題演講,編輯在本文中將對其精華內容進行總結,希望對您進一步瞭解Hadoop有所説明。

事實1:Hadoop是由多個產品組成的。

人們在談論Hadoop的時候,常常把它當做單一產品來看待,但事實上它由多個不同的產品共同組成。

Russom說:「Hadoop是一系列開源產品的組合,這些產品都是Apache軟體基金會的專案。 」

一提到Hadoop,人們往往將其與MapReduce放在一起,但其實HDFS和MapReduce一樣,也是Hadoop的基礎。

事實2:Apache Hadoop是開源技術,但專有廠商也提供Hadoop產品。

由於Hadoop屬於開源技術,可免費下載,所以IBM、Cloudera和EMC Greenplum等廠商都可以推出他們各自的Hadoop特別發行版本本。

這些特別發行版本本一般都會有一些附加特性,比如高級管理工具及相關的支援維護服務。 有人可能對此嗤之以鼻:既然開源社區是免費的,那麼我們為什麼還要為它的服務付費? Russom解釋道,這些版本的HDFS對一些IT部門更合適,特別是企業IT系統已經相對成熟的使用者。

事實3:Hadoop是一個生態系統,而非一個產品。

Hadoop是由開源社區和各個廠商共同開發和推動的。 具體說來,廠商的Hadoop的產品其結構化和關係性更強一些。

Russom說:「一直以來報表平臺、資料整合平臺在為更新的平臺提供各種各樣的介面,Hadoop當然也不例外。 」

事實4:HDFS是檔案系統,而不是資料庫管理系統。

Russom最無法忍受的,就是人們常常把二者混為一談。 能夠對資料集進行管理是資料管理系統很重要的特性之一,這一點HDFS是不具備的。

資料庫管理系統中,我們通過查詢索引可以實現對資料的隨機訪問,它往往處理的是結構化的資料,而在Hadoop中不會處理這樣的資料類型。

Hadoop意義在於資料的多樣化

事實5:Hive與SQL類似,卻非標準SQL.

傳統獲取資料的商務工具大多都是基於SQL的,這比較讓人頭疼,因為Hadoop使用的是一種類似SQL但不是SQL的語言--Apache Hive和HiveQL.

Russom說:「我常聽到別人說,‘Hive學起來非常簡單,直接學Hive就行。 ’但這並不能解決與SQL工具相容的根本問題。 」

Russom認為相容性只是一個短時間問題,但卻阻礙了Hadoop的普及。

事實6:Hadoop與MapReduce相互關聯,但不相互依賴。

MapReduce早在HDFS出現以前就由Google開發推出。 除此之外,諸如MapR一類的廠商一直在宣傳MapReduce功能的多樣性,無需HDFS支援。

儘管如此,Russom卻認為它們具有很好的互補性。 HDFS的大部分價值都體現在可層疊到分散式檔案系統的工具上。

事實7:MapReduce提供的是對分析的控制,而不是分析本身。

MapReduce是一種通用執行驅動引擎,可協助大資料分析。 它能讀取手寫代碼資料,對其進行並行自動處理,並將結果映射到單一集合中。 然而我們需要明確一點,MapReduce自身並不進行分析工作。

Russom說:「MapReduce可以看作是升級版的MPP架構。 你無論怎樣編寫代碼,它都可以把它們並行化,非常強大。 」

事實8:Hadoop的意義不僅僅在於資料量,更在於資料的多樣化。

有人把Hadoop歸類為海量資料處理技術,但是Hadoop真正的價值卻是對多樣化資料處理的能力。

Russom說:「Hadoop的處理範圍為大多數資料倉儲所不及,比如針對半結構化與完全非結構化的資料。 」

事實9:Hadoop是資料倉儲的補充,不是資料倉儲的替代品。

Hadoop對多樣化資料類型進行管理的能力使得「資料倉儲將死」的言論四起,然而Russom卻進行了反駁。

他反問道:「在IT領域,人們多久替換一項技術? 幾乎從來沒有過。 」

資料倉儲在其領域中的性能仍然出色,Hadoop可起到對資料倉儲技術進行補充的作用。 資料倉儲和其他系統的架構越來越多地開始向分散式靠攏,Hadoop在這裡將發揮其作用。

事實10:Hadoop不僅僅是Web分析。

Hadoop在互聯網中的運用非常普遍,Russom認為Hadoop普及趨勢的部分原因是因為它可以處理更多類型的分析。

Russom舉了鐵路公司、機器人和零售業的例子。 鐵路公司可使用感應器對異常高溫的軌道車輛進行探測,以阻止事故的發生。

Russom儘管十分看好Hadoop的前景,但同時認為它的普及還需要數年時間。

事實11:大資料不一定非Hadoop不可。

別看現在大資料和Hadoop已經密不可分,Russom卻認為Hadoop並不是大資料的「唯一」。 他提到了許多其他廠商的產品,如Teradata、Sybase IQ(被SAP收購)和Vertica(被HP收購)等。

除此之外,在Hadoop沒有誕生之時,一些企業就已經開始研究大資料了。 例如,電信行業多年以前就有呼叫明細記錄。

事實12:Hadoop不是「免費午餐」。

雖然Hadoop屬於開源技術,但是軟體的安裝部署是需要花錢的。 Russom稱,由於Hadoop在管理工具與支援服務方面的不足,企業在使用過程中很容易產生額外費用。 另外,由於它沒有優化程式,我們只能請專業人士在運行環境中手寫輸入代碼,而這些專業人士的薪酬價碼都不菲。

更不用提部署Hadoop集群的硬體和相關配置的成本。

他說:「千萬別以為Hadoop是免費的或者很便宜,它背後的隱性開銷你是一下子看不到的。 」

(責任編輯:蒙遺善)

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.