盤點大資料分析的十二大殺手鐧

來源:互聯網
上載者:User

當資料以成百上千TB不斷增長的時候,我們需要一種獨特技術來應對這種前所未有的挑戰。

大資料分析迎來大時代

全球各行各業的組織機構已經意識到,最準確的商務決策來自于事實,而不是憑空臆想。 這也就意味著,他們需要在內部交易系統的歷史資訊之外,採用基於資料分析的決策模型和技術支援。 互聯網點擊資料、傳感資料、日誌檔、具有豐富地理空間資訊的移動資料和涉及網路的各類評論,成為了海量資訊的多種形式。

極具挑戰性的是,傳統的資料庫部署不能處理數TB資料,也不能很好的支援高級別的資料分析。 在過去十幾年中,大規模並行處理(MPP)平臺和列存儲資料庫開啟了新一輪資料分析史上的革命。 而且近年來技術不斷發展,我們開始看到,技術升級帶來的已知架構之間的界限變得更加模糊。 更為重要的是,開始逐步出現了處理半結構化和非結構化資訊的NoSQL等平臺。

大資料分析迎來大時代

本文中,我們將向大家介紹迄今為止,包括EMC的Greenplum、Hadoop和MapReduce等提供大資料分析的產品。 此外,惠普前段時間收購即時分析平臺Vertica、IBM獨立的基於DB2智慧分析系統和Netezza的相關產品。 當然,也有微軟的Parallel Data Warehouse、SAP旗下公司Sybase的Sybase IQ資料倉儲分析工具等。 下面,就讓我們來瞭解業界大資料分析的這十二大產品:

1.模組化EMC Appliance處理多種資料類型

2010年EMC收購了Greenplum,隨後,利用EMC自身存儲硬體和支援複製與備份功能的Greenplum大規模並行處理(MPP)資料庫,推出了EMC Greenplum Data Computing Appliance ( DCA)。 通過與SAS和MapR等合作夥伴,DCA擴大了對Greenplum的資料庫支援 。

支援大資料分析的EMC Appliance

今年5月,EMC推出了自己的Hadoop軟體工具,而且該公司還承諾,今年秋季發佈的模組化DCA將支援Greenplum SQL/關聯式資料庫,Hadoop部署也能在同樣的設備上得到支援。 借助Hadoop,EMC能夠解決諸如網路點擊資料、非結構資料等真正大資料分析的困難。 模組化的DCA也能夠在同樣的設備上支援長期保留的高容量的存儲模組,從而滿足監測需求。

2.Hadoop和MapReduce提煉大資料

Hadoop是一個開放源碼的分散式資料處理系統架構,主要面向存儲和處理結構化、半結構化或非結構化、真正意義上的大資料(通常成百上千的TB甚至PB級別資料)應用。 網路點擊和社交媒體分析應用,正在極大地推動應用需求。 Hadoop提供的MapReduce(和其他一些環境)是處理大資料集理想解決方案。

MapReduce能將大資料問題分解成多個子問題,將它們分配到成百上千個處理節點之上,然後將結果彙集到一個小資料集當中,從而更容易分析得出最後的結果。

MapReduce結構圖

Hadoop可以運行在低成本的硬體產品之上,通過擴展可以成為商業存儲和資料分析的替代方案。 它已經成為很多互聯網巨頭,比如AOL、eHarmony(美國線上約會網站)、易趣、Facebook、Twitter和Netflix大資料分析的主要解決方案。 也有更多傳統的巨頭公司比如摩根大通銀行,也正在考慮採用這一解決方案。

3.惠普Vertica電子商務分析

今年二月被惠普收購的Vertica,是能提供高效資料存儲和快速查詢的列存儲資料庫即時分析平臺。 相比傳統的關係資料庫,更低的維護和運營成本,就可以獲得更快速的部署、運行和維護。 該資料庫還支援大規模並行處理(MPP)。 在收購之後,惠普隨即推出了基於x86硬體的HP Vertica。 通過MPP的擴充性可以讓Vertica為高端數位行銷、電子商務客戶(比如AOL、Twitter、 Groupon)分析處理的資料達到PB級。

惠普Vertica即時分析平臺

其實,早在惠普收購之前,Vertica就推出有包括記憶體、快閃記憶體快速分析等一系列創新產品。 它是首個新增Hadoop連結支援客戶管理關聯式資料的產品之一,也是首個基於雲部署風險的產品平臺之一。 目前,Vertica支援惠普的雲服務自動化解決方案。

4.IBM提供運維和分析資料倉庫

去年,IBM推出了基於DB2的Smart Analytic System(圖中左側),那麼它為何還要收購另外的Netezza方案平臺呢? 因為前者是具備高擴充性企業資料倉儲的平臺,可以支援成千上萬的使用者和各類應用操作。 比如,話務中心通常擁有大量的雇員需要快速回撥客戶的歷史通話記錄。 Smart Analytic System提供了整合資訊的DB2資料庫,預配置Cognos BI軟體模組,可以在IBM Power System(RISC或者X86架構)上運行。

Smart Analytic System及Netezza

Netezza致力於為數字化行銷公司、電信、和其他挖掘成百上千TB甚至PB級別資料的公司,提供高可擴展分析應用的解決方案。 IBM的Netezza TwinFin資料倉儲設備,支援大規模並行處理,可以在一天時間內部署完畢。 Netezza支援多種語言和方式進行資料庫分析,其中包括JAVA、C、C++、Python和MapReduce。 與此同時,它還支援如SAS,IBM SPSS使用的矩陣操作方法和R程式設計語言。 IBM Netezza最近增加了一個高容量長期存檔設備以滿足更多要求。

5.Infobright減少DBA工作量和查詢時間

Infobright列存儲資料庫,旨在為數十TB級別資料提供各類分析服務。 而這一塊也正是甲骨文和微軟SQL Server的核心市場之一。 InfoBright還表示,建立在MySQL基礎之上的資料庫也提供了另外一種選擇,它專門針對分析應用、低成本簡化工作力工作、交付高性能的服務進行設計。

(責任編輯:呂光)

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.