導讀:開源的資料處理平臺憑藉其低成本、高擴充性和靈活性的優勢已經贏得了多數網路巨頭的認可。 現在Hadoop將進入更多企業。 IBM將在明年推出內置NoSQL技術的DB2旗艦級資料庫管理系統。 上個月Oracle和Microsoft也分別透露了將計畫在明年發佈基於Hadoop的產品。 兩家公司都計畫提供協助部署服務和企業級支援。 Oracle已經承諾將會在大資料設備中預裝Hadoop軟體。
大資料革命正以Apache Hadoop為中心如火如荼的進行著。 自從開源分散式資料處理平臺在5年前發佈時討論之聲就不絕於耳。 但在過去的18個月中,Hadoop贏得了客戶的認可,並得到眾多商業化的支援以及眾多資料庫和資料整合軟體商的整合。 在眾多廠商之中最著名的三個商業資料供應商當屬Oracle、IBM和Microsoft。
Hadoop會在未來成為大資料的重大技術嗎?
Hadoop是一個基於JAVA的分散式密集資料處理和資料分析的軟體框架。 Hadoop在很大程度上是受Google在2004年白皮書中闡述的MapReduce的技術啟發。 MapReduce工作原理是將任務分解為成百上千塊的小任務,然後發送到電腦集群中。 每台電腦再傳送會自己那部分資訊,MapReduce則迅速整合這些回饋並形成答案。
Hadoop的擴充性非常優秀,Hadoop可處理分佈在數以千計的低成本X86伺服器計算節點中的大型資料。 同時由於眾所周知的摩爾定律,記憶體和磁片的容量也在不斷增長。 Hadoop對硬體的支援也在加強,現在每個節點可部署16核的處理器,12TB甚至24TB磁片。 Cloudera透露其推出的產品每個節點的成本大約4000美元。 這個價格對於關係資料庫部署每TB 10000至12000美元來說極具競爭優勢。
這種高容量低成本的組合引人注目,但Hadoop最吸引人的是其處理混合資料類型的能力。
Hadoop可以管理結構化資料,以及諸如伺服器日誌檔和Web點擊流的資料。 同時還可以管理以非結構化文本為中心的資料,如Facebook和Twitter。 這種處理多類型資料的能力非常重要。 它催生了NoSQL平臺和產品。 如Cassandra, CouchDB, MongoDB以及Oracle最新的NoSQL資料庫。 而傳統關聯式資料庫如Oracle,IBM DB2,Microsoft SQL Server和MySQL則都不能處理混合資料類型和非結構化資料。 由於交易處理靈活性的需求,Hadoop獲得大多數資料分析廠商的關注和支援。
Hadoop已被廣泛應用
現今,Hadoop已被認為是非結構化資料的專用技術。 低成本、高擴充性和靈活性等優勢已成為處理大規模點擊流量分析和廣告定位等網路巨頭(如AOL和comScore)的首選。
AOL三年多時間一直使用Hadoop。 AOL的研發團隊在加利福尼亞州的Mountain View部署了300節點的系統,該系統可以存儲每天數十億事件和超過500TB的點選流資料。 點擊所帶來流資料是高度結構化的,但資料量是非常龐大和多樣的。 所以幾乎不可能處理所有的提取、轉換和負載工作。 AOL為了解決以上問題決定使用Hadoop MapReduce處理分佈在數百個計算節點的資料過濾和關聯任務。 由於Hadoop為業務帶來的優勢,AOL的Hadoop研發團隊在今年四月在其總部部署了700節點的系統。
Hadoop適用于所有類型資料的特性註定將使Hadoop在更廣泛的領域使用。 例如提供託管服務和中小型企業應用服務提供者SunGrad。 他們將計畫推出基於雲的託管服務,旨在説明金融服務公司處理他們基於Hadoop MapReduce的資料處理。
商用軟體廠商Tidemark最近也推出一款SaaS軟體,這種基於雲的性能管理應用使用MapReduce將混合資料來源轉化為產品或金融規劃方案。
三巨頭大資料領域齊發力
在上月美國拉斯維加斯舉行IOD年度大會上IBM院士、DB2總架構師Curt Cotner宣佈IBM將在明年推出內置NoSQL技術的DB2旗艦級資料庫管理系統。 他還表示未來的資料庫發展方向是非關係資料庫NoSQL。 目前Google的BigTable和Amazon的Dynamo都用NoSQL型資料庫,而傳統的關係資料庫在應付超大規模、高併發的SNS、web2.0網站已經力不從心。 同時IBM發佈了一系列資料分析軟體,包括雲計算版本的InfoSphere BigInsights。 BigInsights是一套建立在Hadoop上的資料分析軟體,能夠處理企業使用者收集大量非結構化資料。
微軟也在10月12日在西雅圖舉行的SQL PASS 2011峰會宣佈將與從雅虎分拆出來的Hortonworks合作開發Hadoop,並將在Apache Hadoop上實現搭建Windows Azure以及Windows Server平臺。 同時基於Hadoop的Windows Server還會與微軟現有的BI工具聯合處理任務。
Oracle作為全球最大的關聯式資料庫供應商也有所行動。 其在2011 Oracle全球大會上推出了Big Data Appliance。 Big Data Appliance是一個集成了Hadoop、NoSQL Database、Oracle資料庫Hadoop配接器、Oracle資料庫Hadoop裝載器及R語言的系統。
Hadoop的未來
根據目前的狀況來看,Hadoop作為企業級資料倉儲體系結構核心技術,在未來的數年中將會保持持續增長的勢頭。 包括MapR、Zettaset、Cloudera、HStreaming、Hadapt、DataStax、Datameer這些與Hadoop相關的新公司已經獲得投資,為人們所熟知,為各種市場帶來最新技術。
與此同時下一代的MapReduce會完善很多之前不盡人如意的地方。 首先節點數將從目前的4000增加到6000-10000,其次併發的任務數從目前的40000增加到100000。 另外將繼續加大對硬體支援,同時架構也會有所改變,包括更多程式設計模式的支援。
(責任編輯:蒙遺善)