當資料以成百上千TB不斷增長的時候,我們需要一種獨特技術來應對這種前所未有的挑戰。
大資料分析迎來大時代
全球各行各業的組織機構已經意識到,最準確的商務決策來自于事實,而不是憑空臆想。 這也就意味著,他們需要在內部交易系統的歷史資訊之外,採用基於資料分析的決策模型和技術支援。 互聯網點擊資料、傳感資料、日誌檔、具有豐富地理空間資訊的移動資料和涉及網路的各類評論,成為了海量資訊的多種形式。
極具挑戰性的是,傳統的資料庫部署不能處理數TB資料,也不能很好的支援高級別的資料分析。 在過去十幾年中,大規模並行處理(MPP)平臺和列存儲資料庫開啟了新一輪資料分析史上的革命。 而且近年來技術不斷發展,我們開始看到,技術升級帶來的已知架構之間的界限變得更加模糊。 更為重要的是,開始逐步出現了處理半結構化和非結構化資訊的NoSQL等平臺。
大資料分析迎來大時代
本文中,我們將向大家介紹迄今為止,包括EMC的Greenplum、Hadoop和MapReduce等提供大資料分析的產品。 此外,惠普前段時間收購即時分析平臺Vertica、IBM獨立的基於DB2智慧分析系統和Netezza的相關產品。 當然,也有微軟的Parallel Data Warehouse、SAP旗下公司Sybase的Sybase IQ資料倉儲分析工具等。 下面,就讓我們來瞭解業界大資料分析的這十二大產品:
1.模組化EMC Appliance處理多種資料類型
2010年EMC收購了Greenplum,隨後,利用EMC自身存儲硬體和支援複製與備份功能的Greenplum大規模並行處理(MPP)資料庫,推出了EMC Greenplum Data Computing Appliance ( DCA)。 通過與SAS和MapR等合作夥伴,DCA擴大了對Greenplum的資料庫支援 。
支援大資料分析的EMC Appliance
今年5月,EMC推出了自己的Hadoop軟體工具,而且該公司還承諾,今年秋季發佈的模組化DCA將支援Greenplum SQL/關聯式資料庫,Hadoop部署也能在同樣的設備上得到支援。 借助Hadoop,EMC能夠解決諸如網路點擊資料、非結構資料等真正大資料分析的困難。 模組化的DCA也能夠在同樣的設備上支援長期保留的高容量的存儲模組,從而滿足監測需求。
2.Hadoop和MapReduce提煉大資料
Hadoop是一個開放源碼的分散式資料處理系統架構,主要面向存儲和處理結構化、半結構化或非結構化、真正意義上的大資料(通常成百上千的TB甚至PB級別資料)應用。 網路點擊和社交媒體分析應用,正在極大地推動應用需求。 Hadoop提供的MapReduce(和其他一些環境)是處理大資料集理想解決方案。
MapReduce能將大資料問題分解成多個子問題,將它們分配到成百上千個處理節點之上,然後將結果彙集到一個小資料集當中,從而更容易分析得出最後的結果。
MapReduce結構圖
Hadoop可以運行在低成本的硬體產品之上,通過擴展可以成為商業存儲和資料分析的替代方案。 它已經成為很多互聯網巨頭,比如AOL、eHarmony(美國線上約會網站)、易趣、Facebook、Twitter和Netflix大資料分析的主要解決方案。 也有更多傳統的巨頭公司比如摩根大通銀行,也正在考慮採用這一解決方案。
3.惠普Vertica電子商務分析
今年二月被惠普收購的Vertica,是能提供高效資料存儲和快速查詢的列存儲資料庫即時分析平臺。 相比傳統的關係資料庫,更低的維護和運營成本,就可以獲得更快速的部署、運行和維護。 該資料庫還支援大規模並行處理(MPP)。 在收購之後,惠普隨即推出了基於x86硬體的HP Vertica。 通過MPP的擴充性可以讓Vertica為高端數位行銷、電子商務客戶(比如AOL、Twitter、 Groupon)分析處理的資料達到PB級。
惠普Vertica即時分析平臺
其實,早在惠普收購之前,Vertica就推出有包括記憶體、快閃記憶體快速分析等一系列創新產品。 它是首個新增Hadoop連結支援客戶管理關聯式資料的產品之一,也是首個基於雲部署風險的產品平臺之一。 目前,Vertica支援惠普的雲服務自動化解決方案。
4.IBM提供運維和分析資料倉庫
去年,IBM推出了基於DB2的Smart Analytic System(圖中左側),那麼它為何還要收購另外的Netezza方案平臺呢? 因為前者是具備高擴充性企業資料倉儲的平臺,可以支援成千上萬的使用者和各類應用操作。 比如,話務中心通常擁有大量的雇員需要快速回撥客戶的歷史通話記錄。 Smart Analytic System提供了整合資訊的DB2資料庫,預配置Cognos BI軟體模組,可以在IBM Power System(RISC或者X86架構)上運行。
Smart Analytic System及Netezza
Netezza致力於為數字化行銷公司、電信、和其他挖掘成百上千TB甚至PB級別資料的公司,提供高可擴展分析應用的解決方案。 IBM的Netezza TwinFin資料倉儲設備,支援大規模並行處理,可以在一天時間內部署完畢。 Netezza支援多種語言和方式進行資料庫分析,其中包括JAVA、C、C++、Python和MapReduce。 與此同時,它還支援如SAS,IBM SPSS使用的矩陣操作方法和R程式設計語言。 IBM Netezza最近增加了一個高容量長期存檔設備以滿足更多要求。
5.Infobright減少DBA工作量和查詢時間
Infobright列存儲資料庫,旨在為數十TB級別資料提供各類分析服務。 而這一塊也正是甲骨文和微軟SQL Server的核心市場之一。 InfoBright還表示,建立在MySQL基礎之上的資料庫也提供了另外一種選擇,它專門針對分析應用、低成本簡化工作力工作、交付高性能的服務進行設計。
(責任編輯:呂光)