十大開源技術:
Apache HBase:這個大資料管理平臺建立在谷歌強大的BigTable管理引擎基礎上。 作為具有開源、JAVA編碼、分散式多個優勢的資料庫,Hbase最初被設計應用於Hadoop平臺,而這一強大的資料管理工具,也被Facebook採用,用於管理消息平臺的龐大資料。
Apache Storm:用於處理高速、大型資料流程的分散式即時計算系統。 Storm為Apache Hadoop添加了可靠的即時資料處理功能,同時還增加了低延遲的儀表板、安全警報,改進了原有的操作方式,説明企業更有效率地捕獲商業機會、發展新業務。
Apache Spark:該技術採用記憶體計算,從多反覆運算批量處理出發,允許將資料載入記憶體做反復查詢,此外還融合資料倉儲、流處理和圖計算等多種計算范式,Spark用Scala語言實現,構建在HDFS上, 能與Hadoop很好的結合,而且運行速度比MapReduce快100倍。
Apache Hadoop:該技術迅速成為了大資料管理標準之一。 當它被用來管理大型資料集時,對於複雜的分散式應用,Hadoop體現出了非常好的性能,平臺的靈活性使它可以運行在商用硬體系統,它還可以輕鬆地集成結構化、半結構化和甚至非結構化資料集。
Apache Drill:你有多大的資料集? 其實無論你有多大的資料集,Drill都能輕鬆應對。 通過支援HBase、Cassandra和MongoDB,Drill建立了互動式分析平臺,允許大規模資料吞吐,而且能很快得出結果。
Apache Sqoop:也許你的資料現在還被鎖定于舊系統中,Sqoop可以幫你解決這個問題。 這一平臺採用併發連接,可以將資料從關係資料庫系統方便地轉移到Hadoop中,可以自訂資料類型以及中繼資料傳播的映射。 事實上,你還可以將資料(如新的資料)導入到HDFS、Hive和Hbase中。
Apache Giraph:這是功能強大的圖形處理平臺,具有很好可擴充性和可用性。 該技術已經被Facebook採用,Giraph可以運行在Hadoop環境中,可以將它直接部署到現有的Hadoop系統中。 通過這種方式,你可以得到強大的分散式作圖能力,同時還能利用上現有的大資料處理引擎。
Cloudera Impala:Impala模型也可以部署在你現有的Hadoop群集上,監視所有的查詢。 該技術和MapReduce一樣,具有強大的批次處理能力,而且Impala對於即時的SQL查詢也有很好的效果,通過高效的SQL查詢,你可以很快的瞭解到大資料平臺上的資料。
Gephi:它可以用來對資訊進行關聯和量化處理,通過為數據創建功能強大的視覺化效果,你可以從資料中得到不一樣的洞察力。 Gephi已經支援多個圖表類型,而且可以在具有上百萬個節點的大型網路上運行。 Gephi具有活躍的使用者社區,Gephi還提供了大量的外掛程式,可以和現有系統完美的集成到一起,它還可以對複雜的IT連接、分散式系統中各個節點、資料流程等資訊進行視覺化分析。
MongoDB:這個堅實的平臺一直被很多組織推崇,它在大資料管理上有極好的性能。 MongoDB最初是由DoubleClick公司的員工創建,現在該技術已經被廣泛的應用於大資料管理。 MongoDB是一個應用開源技術開發的NoSQL資料庫,可以用於在JSON這樣的平臺上存儲和處理資料。 目前,紐約時報、Craigslist以及眾多企業都採用了MongoDB,説明他們管理大型資料集。 (Couchbase伺服器也作為一個參考)。
十大頂尖公司:
Amazon Web Services
Forrester將AWS稱為「雲霸主」,談到雲計算領域的大資料,那就不得不提到亞馬遜。 該公司的Hadoop產品被稱為EMR(Elastic Map Reduce),AWS解釋這款產品採用了Hadoop技術來提供大資料管理服務,但它不是純開源Hadoop,經過修改後現在被專門用在AWS雲上。
Forrester稱EMR有很好的市場前景。 很多公司基於EMR為客戶提供服務,有一些公司將EMR應用於資料查詢、建模、集成和管理。 而且AWS還在創新,Forrester稱未來EMR可以基於工作量的需要自動縮放調整大小。 亞馬遜計畫為其產品和服務提供更強大的EMR支援,包括它的RedShift資料倉儲、新公佈的Kenesis即時處理引擎以及計畫中的NoSQL資料庫和商業智慧工具。 不過AWS還沒有自己的Hadoop發行版本。
Cloudera
Cloudera有開源Hadoop的發行版本,這個發行版本採用了Apache Hadoop開源專案的很多技術,不過基於這些技術的發行版本也有很大的進步。 Cloudera為它的Hadoop發行版本開發了很多功能,包括Cloudera管理器,用於管理和監控,以及名為Impala的SQL引擎等。 Cloudera的Hadoop發行版本基於開源Hadoop,但也不是純開源的產品。 當Cloudera的客戶需要Hadoop不具備的某些功能時,Cloudera的工程師們就會實現這些功能,或者找一個擁有這項技術的合作夥伴。 Forrester表示:「Cloudera的創新方法忠於核心Hadoop,但因為其可實現快速創新並積極滿足客戶需求,這一點使它不同于其他那些供應商。 」目前,Cloudera的平臺已經擁有200多個付費客戶,一些客戶在Cloudera的技術支援下已經可以跨1000多個節點實現對PB級資料的有效管理。
Hortonworks
和Cloudera一樣,Hortonworks是一個純粹的Hadoop技術公司。 與Cloudera不同的是,Hortonworks堅信開源Hadoop比任何其他供應商的Hadoop發行版本都要強大。 Hortonworks的目標是建立Hadoop生態圈和Hadoop使用者社區,推進開源專案的發展。 Hortonworks平臺和開源Hadoop聯繫緊密,公司管理人員表示這會給使用者帶來好處,因為它可以防止被供應商套牢(如果Hortonworks的客戶想要離開這個平臺,他們可以輕鬆轉向其他開源平臺)。 這並不是說Hortonworks完全依賴開源Hadoop技術,而是因為該公司將其所有開發的成果回報給了開源社區,比如Ambari,這個工具就是由Hortonworks開發而成,用來填充集群管理專案漏洞。 Hortonworks的方案已經得到了Teradata、Microsoft、Red Hat和SAP這些供應商的支援。
IBM
當企業考慮一些大的IT專案時,很多人首先會想到IBM.IBM是Hadoop專案的主要參與者之一,Forrester稱IBM已有100多個Hadoop部署,它的很多客戶都有PB級的資料。 IBM在網格計算、全球資料中心和企業大資料項目目實施等眾多領域有著豐富的經驗。 「IBM計畫繼續整合SPSS分析、高性能計算、BI工具、資料管理和建模、應對高性能計算的工作負載管理等眾多技術。 」
Intel
和AWS類似,英特爾不斷改進和優化Hadoop使其運行在自己的硬體上,具體來說,就是讓Hadoop運行在其至強晶片上,説明使用者打破Hadoop系統的一些限制,使軟體和硬體結合的更好, 英特爾的Hadoop發行版本在上述方面做得比較好。 Forrester指出英特爾在最近才推出這個產品,所以公司在未來還有很多改進的可能,英特爾和微軟都被認為是Hadoop市場上的潛力股。
MapR Technologies
MapR的Hadoop發行版本目前為止也許是最好的了,不過很多人可能都沒有聽說過。 Forrester對Hadoop使用者的調查顯示,MapR的評級最高,其發行版本在架構和資料處理能力上都獲得了最高分。 MapR已將一套特殊功能融入其Hadoop發行版本中。 例如網路檔案系統(NFS)、災害復原以及高可用性功能。 Forrester說MapR在Hadoop市場上沒有Cloudera和Hortonworks那樣的知名度,MapR要成為一個真正的大企業,還需要加強夥伴關係和市場行銷。
Microsoft
微軟在開源軟體問題上一直很低調,但在大資料形勢下,它不得不考慮讓Windows也相容Hadoop,它還積極投入到開源專案中,以更廣泛地推動Hadoop生態圈的發展。 我們可以在微軟的公共雲Windows Azure HDInsight產品中看到其成果。 微軟的Hadoop服務基於Hortonworks的發行版本,而且是為Azure量身定制的。
微軟也有一些其他的專案,包括名為Polybase的專案,讓Hadoop查詢實現了SQLServer查詢的一些功能。 Forrester說:「微軟在資料庫、資料倉儲、雲、OLAP、BI、試算表(包括PowerPivot)、協作和開發工具市場上有很大優勢,而且微軟擁有龐大的使用者群,但要在Hadoop這個領域成為行業領導者還有很遠的路要走。 」
Pivotal Software
EMC和Vmware部分大資料業務分拆組合產生了Pivotal.Pivotal一直努力構建一個性能優越的Hadoop發行版本,為此,Pivotal在開源Hadoop的基礎上又添加了一些新的工具,包括一個名為HAWQ的SQL引擎以及一個專門解決大 資料問題的Hadoop應用。 Forrester稱Pivotal Hadoop平臺的優勢在於它整合了Pivotal、EMC、Vmware的眾多技術,Pivotal的真正優勢實際上等於EMC和Vmware兩大公司為其撐腰。 到目前為止,Pivotal的使用者還不到100個,而且大多是中小型客戶。
Teradata
對於Teradata來說,Hadoop既是一種威脅也是一種機遇。 資料管理,特別是關於SQL和關係資料庫這一領域是Teradata的專長。 所以像Hadoop這樣的NoSQL平臺崛起可能會威脅到Teradata.相反,Teradata接受了Hadoop,通過與Hortonworks合作,Teradata在Hadoop平臺集成了SQL技術, 這使Teradata的客戶可以在Hadoop平臺上方便地使用存儲在Teradata資料倉儲中的資料。
AMPLab
通過將資料轉變為資訊,我們才可以理解世界,而這也正是AMPLab所做的。 AMPLab致力於機器學習、資料採礦、資料庫、資訊檢索、自然語言處理和語音辨識等多個領域,努力改進對資訊包括不透明資料集內資訊的甄別技術。 除了Spark,開源分散式SQL查詢引擎Shark也源于AMPLab,Shark具有極高的查詢效率,具有良好的相容性和可擴充性。 近幾年的發展使電腦科學進入到全新的時代,而AMPLab為我們設想一個運用大資料、雲計算、通信等各種資源和技術靈活解決難題的方案,以應對越來越複雜的各種難題。
(責任編輯:呂光)