雲計算架構之Hadoop:從小象變大象的發展歷程

來源:互聯網
上載者:User

由於具備低成本和前所未有的高擴充性,Hadoop已被公認為是新一代的大資料處理平臺。 就像30年前SQL(Structured Query Language)出現一樣,Hadoop正帶來了新一輪的資料革命。 如今Hadoop已從初出茅廬的小象變成了行業的巨人,但Hadoop仍需繼續完善。

基於JAVA語言構建的Hadoop框架實際上一種分散式處理大資料平臺,其包括軟體和眾多子專案。 在近十年中Hadoop已成為大資料革命的中心。 MapReduce 作為Hadoop的核心是一種處理大型及超大型資料集(TB級別的資料。 包括網路點擊產生的流資料、日誌檔、社交網路等所帶來的資料)並生成相關的執行的程式設計模型。 其主要思想是從函數式程式設計語言借鑒而來的,同時也包含了從向量程式設計語言借鑒的特性。

互聯網巨頭Yahoo!作為Hadoop框架的先驅研究者,在6年時間已經將Hadoop塑造成了極為成功的技術。 但相比于SQL,Hadoop在某些方面仍然顯得不夠完善。 這直接導致現今所有目光都集中在Hadoop供應商的身上。 包括Amazon、Cloudera等公司帶來眾多的創新並提供強大的工具。 Cloudera推出的CHD3包含眾多的附加軟體,可以説明管理、運行Hadoop上的複雜任務,例如:Apache Mahout、Flume、Sqoop、Pig、Oozie、Hive、HBase、ZooKeeper、 Whirr等。 同時Cloudera也是目前最大的提供企業Hadoop技術支援和培訓的廠商。 而Amazon是較早在公共雲中運行Hadoop的公司,其提供的基於MapReduce的彈性計算可提供海量的資料計算服務。

  

但資料處理只是大資料處理的一部分,組織最終想要得到的是經過分析後的有價值的資料。 商業智慧和資料分析廠商如Datameer、Hadapt以及Karmasphere就顯的不可或缺。

Hadoop在2011年證明自身的價值,最明顯的跡象就是五大資料庫管理軟體供應商EMC、IBM、Informatica、Microsoft以及Oracle都投入了Hadoop的懷抱。 EMC與MapR展開合作,而Microsoft和Oracle則分別與Hortonworks和Cloudera展開了合作。 而EMC和Oracle已經推出了Hadoop專有設備。 下面就讓我們來看一下Hadoop在大資料領域都俘虜了那些公司的心。

Amazon基於MapReduce的服務

  

Amazon早在2009年就推出了基於Hadoop MapReduce的EC2(Elastic Compute Cloud)服務。 因此Amazon在應對使用者應用和需求上顯得胸有成竹。 無論是中小型企業還是超大型的組織,基於MapReduce的EC2服務都經受住了考驗。 同時AWS(Amazon Web Service)還包括Amazon S3(Simple storage Service)。 Amazon S3可提供高伸縮性、靠可靠性、高可用性以及極低的存儲成本。 利用AWS可高效的處理資料密集型的任務,如Web索引、資料採礦、日誌檔分析、機器學習以及科技和生物資訊的學術研究。

Cloudera提供安全的Hadoop平臺

  

Cloudera也是比較早的大規模Hadoop軟體和服務提供者。 Cloudera一直專注于將開源的Apache Hadoop完善成可靠的平臺。 Cloudera目前擁有100多家客戶,並且在本月還與Oracle展開合作,共同進軍大資料領域。

在Cloudera提供了用於管理大資料的管理主控台和負責管理Hadoop部署的工具以及企業級的支援。 Cloudera的管理工具提供基於嚮導式的Hadoop安裝和配置功能表。 同時提供相應的工具,以説明系統管理員監控平臺的健康情況、診斷問題、優化性能,並進行所需的配置和安全變更。 而 Cloudera的企業級支援與服務包括配置檢查、升級和與協力廠商系統集成以及其他技術資源。 現今Cloudera管理軟體現在的價格是每節點每年 4000美元(不包括硬體)。

Datameer將大資料與商業智慧有機結合

  

Datameer宣稱其公司基於Hadoop平臺的產品方案DAS(Datameer Analytics Solution)非常適用于商業智慧(BI)。 Datameer可通過JDBC、Hive、Http連接任何的資料來源。 同時包括一個嚮導驅動集成平臺,可安排負載並從任何結構化、半結構化和非結構化的大資料集。 Datameer的大資料分析解決方案通過表格介面整合Hadoop的資料採礦能力。 並通過 REST API在私有雲和公共雲中輸入和輸出資料。

EMC的統一資料分析平臺

  

EMC推出用於支援大資料分析的平臺――EMC Greenplum統一分析平臺(UAP)。 Greenplum UAP是一個唯一的統一資料分析平臺,可擴展至其他工具,其獨特之處在于,它將對大資料的認知和分享貫穿整個分析過程,實現比以往更高的商業價值。 UAP 包括EMC Greenplum 關係資料庫、EMC Greenplum HD Hadoop以及EMC Greenplum Chorus。 UAP就好比一個資料分析團隊,包括了從資料科學家和BI分析師到DBA和線上商業使用者和管理者。 EMC針對硬體設備DCA(Data Computing Appliance),其足以運行EMC Greenplum 關係資料庫和EMC Greenplum HD節點。 DCA提供控制管理介面,方便管理人員監視、管理Greenplum資料庫和Hadoop系統性能。

Hadapt與Hadoop環境無縫集成

  

Hive作為運行在Hadoop上的資料倉儲元件並不像Hadoop那樣受人關注。 而Hadapt則提供集眾多功能于一身的資料分析環境,旨在處理存在於Hadoop和SQL環境中傳統結構化的資料。 Hadapt平臺可運行在私有雲和公共雲之上,並提供從一個環境訪問資料的能力。 包括現有基於SQL 的工具以及MapReduce處理和大資料分析。 Hadapt自動分開執行Hadoop和關係資料庫之間的查詢,處分利用了Hadoop的高擴充性和關係資料庫的高速性。

Hortonworks繼承Yahoo! Hadoop衣缽

  

Yahoo!在去年剝離了Hadoop業務,並與矽谷風投公司Benchmark Capital合資組建一家名為Hortonworks的公司。 新公司包含在Yahoo!貢獻最大的50名工程師,旨在繼續推動Hadoop的發展。 Hortonworks高管斷言這支以Yahoo!開發團隊為班底的公司將會貢獻更多的Hadoop代碼,並指引Hadoop平臺未來的發展。 Hortonworks已在去年10月與微軟成為合作夥伴關係。 Hortonworks可説明Microsoft推出Windows平臺之上的Hadoop。 Hortonworks在去年11月也推出了自由的HDP(Hortonworks Data Platform)V1,而結合了最新0.23版Hadoop的HDP V2將在2012年第一季度推出。 Hortonworks還提供Hadoop的培訓與支援,加強在這方面與Cloudera和MapR的競爭。

IBM的Hadoop之路

  

IBM在多年以前就開始研究Hadoop。 現今IBM提供基於雲服務的海量資料分析方面多種方案的選擇,但目前IBM的策略似乎主要是圍繞 Hadoop在發展。 IBM在4月推出了其SmartCloud雲計算平臺。 並承諾改善Hadoop工作負載。 IBM提供了基於Hadoop的 InfoSphere BigInsights(IBM InfoSphere BigInsights是用於分析和虛擬化海量資料的軟體和服務,這款新產品由 Apache Hadoop 提供技術支援。 )基本版和企業版。 InfoSphere BigInsights之前作為IBM測試和開發的雲產品,現在被SmartCloud取代。

Informatica 向雲更進一步

  

大多數的資料管理軟體供應商(如IBM、Oracle、Syncsort、Talend)都涉及到Hadoop。 Informatica在去年10月也推出了Hadoop環境下的資料編譯轉換解決方案――HParser。

該方案可以運行在幾乎所有的Apache Hadoop分散式環境中,與MapReduce架構平行,能高效率地把無結構的複雜資料――諸如網路記錄、社交媒體資料、通話詳細記錄以及其他資料格式 ―― 轉換為Hadoop中結構或半結構格式。 當把資料轉化為更具結構性的格式後,便可以得到更快速的使用和生效,從而驅動業務發展、提高運營效率。

Karmasphere Hadoop資料分析利器

  

Karmasphere提供了直接存取Hadoop中結構化和非結構化資料以及進一步分析查詢的特性,同時Karmasphere還提供的視覺化工作空間。 Karmasphere提供的視覺化檢視提供了SQL或其他特定查詢語言分析位於Amazon S3、工作流以及本地檔案系統上的結構化和非結構資料的特性。 企業還可以使用資料庫或相關工具(例如Excel)來提取分析得出的資料。

MapR帶來更高性能的Hadoop

  

MapR在Hadoop的舞臺上顯得格外耀眼,其提供Hadoop非常獨特。 MapR基於開源Hadoop,在只需有限硬體的環境中提供更快的 Hadoop。 同時Mapr配備了快照,並號稱不會出現SPOF單節點故障,且被認為是與現有HDFS的API相容。 因此非常容易替換原有的系統。 MapR最新的0.23版解決許多開源Hadoop的缺陷。 而MapR與EMC的合作體現在了EMC Greenplum HD Enterprise Edition上,其就是基於MapR M5構建的。

Microsoft全面擁抱Hadoop

  

當EMC、IBM、Oracle都在2011年涉及Hadoop時,Microsoft全面擁抱Hadoop的舉動就顯得不足為奇了。 而 Hadoop的Windows Server將在在2012年推出,屆時其還會與微軟現有的BI工具聯合處理任務。 去年微軟表示推出Windows Azure上的Hadoop預覽版,微軟還使Hadoop的資料通過部署在基於雲的Windows Azure獲取。 並使其能夠與企業的商業智慧工具一起分析資料。 微軟目前正與Hortonworks合作旨在努力簡化下載、安裝和配置等幾個Hadoop 的相關技術。 包括HDFS、Hive、Pig。 這將有利於企業通過Hadoop拓寬自身的業務。 微軟將編寫新的ODBC驅動程式並擴展自己現有的查詢系統到Hive。 這樣一來使用者將能夠直接從Excel、PowerView執行Hadoop查詢。

Oracle進軍雲計算

  

Oracle在2011 Oracle全球大會上宣佈推出了Oracle Big Data Appliance。 Big Data Appliance是一個集成了Hadoop、NoSQL Database、 Oracle資料庫Hadoop配接器、Oracle資料庫Hadoop裝載器及R語言的系統。 Oracle還在今年1月與Cloudera成為合作夥伴關係。 Oracle現已將Cloudera Distribution Including Apache Hadoop(CDH)和Cloudera Manager集成到Oracle大資料機之中。 Oracle也將利用Cloudera在Hadoop領域的專業知識提供培訓及諮詢業務。 Oracle大資料機中運行了Oracle Linux作業系統,1個機架中包含18個Oracle-Sun伺服器,共計216個核心,同時具備864GB的記憶體和648TB的存儲能力,其售價為45萬美元。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.