今天關鍵分析進展的核心是大資料,它被視為是大量的結構化和非結構化資料的集合,大部分是來自于Web應用程式、伺服器日誌和社交媒體網站。 雖然大資料應用程式常常是與快速發展的組織有關,這些組織可以快速地對即時資料回饋,但大資料和即時不一定是同義的。
行業專家指出大資料在休息時與大資料在運動時確實存在不同。 為了促使它向前發展,外部的説明是必要的。
雖然MapReduce和Hadoop是現代化的、分散式的和並行的,但他們這兩個開源技術都與大資料密切相連,都是面向批次處理的。 這可以會使一些人感到吃驚,但它們經常在當大資料休息之時,也就是說,除非他們是伴隨著相當先進的中介軟體。 內在資料網格或資料庫、複雜事件處理(CEP)引擎和低延遲消息傳遞中介軟體是應用基礎設施軟體的幾種類型,這種軟體要像架構師一樣承擔起推動大資料運動的挑戰。
「快速資料(fast data)」不僅只是一項技術,也是一系列的方法,據英國Ovum 研究集團分析師Tony Baer說。 快速資料包含高性能,低延遲CEP應用,資料流程在記憶體中進行處理,從而檢測模糊複雜的模式,Baer今年早些時候在一篇博文中寫到。
隨著使用者對大資料越來越熟悉,對於伴隨著這種大規模資訊池的更加高級的消息中介軟體類型的需求將會增長,根據Roy Schulte所說,Gartner的分析師。 Gartner認為CEP對大資料很重要,因為它可以快速處理即將出現的資料,通過暫時把資訊存儲在電腦的主要記憶體中。
衡量系統的擴充性
大資料代表著典型的電腦I/O問題,這些問題中大量的「輸入」和「輸出」問題是性能的關鍵瓶頸。 通常情況下,在這種問題的處理上有一個趨勢就是拋棄硬體,不一定要好的效果。 Hadoop框架就是一個例子。
「人們討論擴充性,但就不討論關於Hadoop性能方面的事,」Michael Kopp說,他是底特律Compuware公司性能管理團隊的技術策略師。 「另我印象最深的一方面是人們的假設,因為它是大資料,所以它是快速的大資料。 如果你看向Hadoop,你把它看作是面向批次處理的。 它是快速的,但它永遠不是即時的。 」
就因為它是開源,並不意味它就為公司省錢。
「人們很糾結。 Hadoop確實不便宜,而且很難管理,許多工作的運行速率又不同。 拋棄越多的硬體,就會使得管理更難,」他說,還暗示說一些在大資料超市上的NoSQL和其它系統可能會看起來像CEP系統——它們重在速度。
「CEP系統在整個討論中會佔有重要的地位,」他說。 雖然他看到了Hadoop和NoSQL開發團隊正在努力提高查詢的性能和優化資料庫,但他認為他們很少優化以高效到適應應用程式實際使用資料的方式。
進入高性能消息傳遞
低延遲消息傳遞正在興起,成為另一個使大資料提速的中介軟體方法。 儘管華爾街金融應用程式仍然是主要用例,但高性能消息傳遞定位於更廣泛的使用。 廠商提供這樣的工作包括IBM,Informatica,PrismTech,RTI,Red Hat,Software AG,Solace Systems,Tervela,Tibco和其它的一些。
利用感應器或所謂的物聯網的大資料應用程式代表用例,這些用例需要華爾街應用程式以外的低延遲中介軟體。 這樣的軟體已經用於分析應用程式涵蓋航空、國防、電力公司、甚至停車系統,根據Angelo Corsaro說,PrismTech公司的首席技術官。 Corsaro監控著OpenSplice DDS的工作,OpenSplice DDS支持對象管理集團(Object Management Group)的資料分佈服務(DDS)即時系統。
「應用程式使用OpenSplice來分佈和緩存高容量的快速變化的資料,」他在電子郵件中告訴SearchSOA.com。 「一些技術之間的界線正變得模糊起來。 」
「在某種意義上,OpenSplice提供了一些CEP的功能,」他說,並指出其基於內容的訂閱,可以像在CEP領域一樣連續查詢。
「不管週邊重疊,技術將繼續專業化和集成,」他補充說。
當然有CEP的元素可以區分大資料及其使用。 CEP傾向于與小的資料集合工作,Merv Adrian說,Gartner的一位分析師。 儘管如此,他看了各種技術在以他們的方式,將加快大資料,就如我們現在知道它一樣。
「至今,大資料還未已成為即時的商場。 新的方法出現了,但正如他們所說,需要一些組合,」 Adrian說。 「儘管有點事後諸葛,Hadoop現在是一個工具集。 回頭看,它你是商業智慧。 」
即時能力是人們期望從大資料中得到的,Adrian說。 「這不久就會實現。 但有一些壓力,」他說。
大資料工作已經代表了全新的架構,如果與現在現有的方案相比的話,所以很大程度上取決於專案的結果。 人們不會自找麻煩,添加新架構來看看過去一年他們都做了什麼,Adrian說。
(責任編輯:施柏鵬)