隨著雲時代的到來和SaaS概念的引入,越來越多的企業開始選擇由SaaS應用供應商、電訊廠商等通過互連網平台提供SaaS應用服務,SaaS應用的資料量面臨著TB級的增長速度;不同的SaaS應用體系,提供的資料結構也不完全相同,資料有文本、圖形甚至小型資料庫;SaaS應用資料隨著雲端服務平台的分布性特點,有可能分布在不同的伺服器上,如何對這些異構異源的資料進行資料採礦,是雲時代的企業面臨的難題。
雲時代企業資料採礦面臨的挑戰
挖掘效率:進入雲端運算時代後,BI的思路發生了轉換。以前是基於封閉的企業資料進行挖掘,而面對引入互連網應用後海量的異構資料(據預計到2020年,爆髮式增長的資料量將突破35ZB(1ZB=10億TB))時,目前並行挖掘演算法的效率很低。
多來源資料:引入雲端運算後,企業資料的位置有可能在提供公用雲端服務的平台上,也可能在企業自建的私人雲端上,如何面對不同的資料來源進行挖掘也是一個挑戰。
異構資料:Web資料的最大特點就是半結構化,如文檔、報表、網頁、聲音、映像、視頻等,而雲端運算帶來了大量的基於互連網模式提供的SaaS應用,如何梳理有效資料是一個挑戰。
SaaS應用的資料採礦希望能夠通過海量資料存放區平台,引入快速並行的挖掘演算法,提高資料採礦的品質。
如何選擇合理的基礎架構
對於企業而言,如何將各種應用資料進行整合挖掘,提煉出適合其使用的商業資訊是企業的一大急迫需求。傳統的BI模式大多基於資料倉儲,是關係型資料庫的模式。面對急劇增長的異構資料,傳統的資料倉儲和原有的並行計算技術由於挖掘效率低,已經不能解決海量資料採礦工作,影響著資料的及時提取。
一直以來,商業智慧系統往往基於傳統的SMP架構小型機而構建。隨著近年來X86平台的效能與日俱增、可用性日漸提升、擴充性飛速增長,X86平台在越來越多的市場領域開始侵蝕小型機份額,商業智慧也成為X86架構向RISC小型機發起進攻的另一個戰場。例如,Oracle推出的基於英特爾至強平台的Exadata資料庫雲端服務器,通過專屬的smartscan技術,以及資料處理過程下移的設計,在X86架構基礎上同時提供了較高的OLAP效能(資料倉儲應用)和OLTP效能。此外,IBM也推出了基於X86平台的商業智慧解決方案,基於IBM專屬的EX5架構伺服器和XIV網格儲存系統提供了不輸於小型機的智能資訊處理能力。
選購要點:
1、高可用性:BI的基礎架構層,需要建立起資料採礦雲端服務平台,而這個平台,必然是高可用性的。
從高可用性來看,需要集中解決三個方面的問題:一是資料保護,需要利用CRC、ECC等硬體機制來對傳輸的資料進行校正、錯誤修正,如果無法糾正,就將損壞的資料進行隔離,以保證不造成更大的資料,避免系統的重啟和宕機。
目前英特爾至強7500或E7合作的方案擁有諸多優勢,如成本低、效能高、可靠性(RAS)高、可擴充性好等優勢。在可擴充性能上,X86平台橫向的向外擴充功能,即由兩台以上的機器構成叢集。能滿足大多數企業關鍵應用環境的負載需求,包括對記憶體和CPU要求都較高的資料庫、商業應用和虛擬化。進而避免傳統UNIX雙機方案“成本高昂,備機資源平時嚴重閑置浪費,主機故障切換期間使用者服務被迫停頓”等諸多困境。
此外,7500一些設計已經將計劃宕機時間最小化,這當中包括系統磁碟分割管理技術、CPU和記憶體的熱添加和熱移除等,將系統維護時間降低到最小。
2、虛擬化:資料採礦雲端服務還是要依賴於虛擬化技術,要計算資源自主分配和調度,也就是說虛擬化技術是資料採礦雲端服務技術的支撐。
千萬不要被概念忽悠
大資料有很多不同的使用方式。因此,企業需要根據自身業務情況採用不同的的資料採礦平台。對於那些注重應用分析和處理要求的客戶來說,有很多專門的解決方案,例如惠普Vertica,此外還有很多高效能NAS或者目標系統。
同樣地,對於注重視頻、安防監控、閉路電視、類比模擬、大頻寬或輸送量的話,可以考慮惠普Ibrix、戴爾Exanet、BlueArc、HDS、NetApp、Data Direct Networks、Oracle 7000、EMC Isilon和VNX等。
總的來說,使用者可能會面對一大堆勸說你遷移到更昂貴系統的市場炒作。可能你現在的系統已經足夠好的--如果可以擴充的話,廠商提供給你的並不一定可能很好地運行在你目前的環境下。
對使用者而言,需要警惕各種關於大資料的炒作,他們也許想要縮小你的選擇範圍。除了大資料所能帶來的機遇之外,還有很多不同的方面需要考慮,例如它的特性、應用、使用執行個體以及部署方案。