今年九月在紐約的O’Reilly媒體會議上大資料技術有兩大呼聲:企業級和敏捷。 我們知道企業級的商務智慧產品有Oracle Hyperion、SAP BusinessObjects和IBM Cogonos,而敏捷產品有QlikView、Tableau和TIBCO Spotfire。
如果事實證明大資料必須購買企業級的產品,那麼就意味著大資料會花大本錢。 但這並非絕對,通過使用大資料敏捷技術,各種規模的企業都可以控制成本,從大資料中獲益。 至關重要的是盡可能降低成本並最大化的瞭解大資料集,一旦資料被轉化為可用便具有對業務的洞察力,然後以各種方式將問題匯總,併發揮企業技術的優勢解決問題。
企業級 VS 敏捷BI
首先讓我們來看看BI世界裡發生了什麼。 企業級BI設計的意圖是為了滿足大型企業中許多資訊孤島的要求。 典型場景如下:資訊孤島中的資料通過ETL的過程被清洗和正常化,進入到資料倉儲中,成為一個可用的版本。 然後,通過報表和分析技術,資料被切片、切塊,並交付給成千上萬的人。 企業級BI是一個複雜的過程,它通過多種應用程式的協同工作,以滿足企業中成千上萬人的需求。 企業級BI的問題是它的配置需要花費很長時間,所有大型的複雜系統都十分難以配置和改動。
敏捷BI可以解決企業BI所面對的諸多問題。 敏捷BI可以以高度互動的方式為最終使用者排序、篩選和統計資料,而不需要BI專家的指導。 企業採用敏捷BI技術,可以更廣泛的享受資料所體現的價值。
企業級 VS 敏捷的大資料
現在是大資料技術出場的時候了,EMCGreenplum、Teradata Aster Data等是企業級的代表,而1010data、Pervasive DataRush等則是敏捷的代表。 這兩類廠商都意識到了企業級和敏捷在BI領域的鴻溝,並努力解決這個問題。 企業級大資料供應商知道他們需要敏捷,而敏捷的大資料廠商知道他們需要提供高品質的企業級解決方案。
企業級大資料供應商推出了一些靈活性解決方案。 Greenplum推出了一個名為Chorus的產品,以提供一個協作環境,支援資料分析和查找的過程。 Aster提供了一系列SQL擴展,允許Hadoop類型的查詢使用類似與SQL的語法。 在實現敏捷方面,這些產品的擴展是很大的進步,但對Greenplum和Aster企業級技術所帶來的高昂價格標籤,人們更感興趣的問題是:能否以敏捷的大資料技術彌補企業級技術的不足,以更少的投資獲得更多的回報?
敏捷的大資料解決企業級平臺的難題
回頭看看我們所提到的三種敏捷的大資料技術,首先的問題是:它們為什麼被稱作是敏捷的?
答案其實很簡單,它們可以讓使用者獲取非凡的資料洞察力,並削減價格。 如下:
●只需經過些許培訓,使用者就可以使用Splunk進行資料的查詢、篩選和顯示
●1010data以試算表的形式為使用者提供大資料的處理介面
●Pervasive DataRush以圖形介面並行、高效地處理資料
一個敏捷的大資料在大批量處理中的案例
David Inbar是Pervasive的市場發展戰略辦公室的首席執行官,在價格低廉的做了一個實驗演示,處理了足夠龐大的可稱之為大資料的資料。
DataRush的工具組消除了程式師並行程式設計的複雜度。 即便是科技狂人,相對編寫一個單線程的程式,並行程式設計也無異於是火箭科學。 DataRush為並行程式設計提供了一種程式設計模型,以替代艱難的多核函數編碼。 比如,你可以編寫一個基於元件模型的工作流應用程式,該工具組會自動將其轉化為該工作流所允許的並行應用程式。
大資料系統如Hadoop具有橫向擴充性。 雖然DataRush可以承擔此類角色,並能在數千台電腦中安裝,但是它的不同之處在于它一般在一台電腦中安裝,用以發掘多核系統的潛能。
DataRush最有特色的功能是它並不需要你知道電腦究竟有多少個核,當編寫一個DataRush應用程式時,它會自動感知電腦上核心的數目,並最大限度地利用,以進行並行處理。
將敏捷元件集合起來構建企業級系統
敏捷技術在針對大資料創建智慧業務系統方面具有極大優勢,但仍然有相當長的路要走。 敏捷BI能夠降低成本,面對大資料的挑戰,它將證明它的價值。
(責任編輯:呂光)