前兩天有人在微博發問,用什麼樣的方式講述大資料和雲計算才能非專業人士聽的更清楚,其實關於大資料的案例有很多,商業智慧分析也多次提到過關于資料採礦的價值和意義,只不過在今天看資料比以前還多而已,大資料並不可怕, 可怕的是他的即時分析能力,會讓缺點和真相赤裸裸暴露在人們面前,那麼當雲計算遭遇大資料一股腦向企業湧進的時候,企業能否駕馭呢?
所謂的大資料主要涵蓋3V面向,分別是處理時效(Velocity)、資料格式(Variety)與資料量(Volume);所以大資料並非單一技術,而是眾多技術專案的集合體,它們的共同目的,都是在一定時間內處理完大量的結構化、 半結構化或非結構化資料。 唯有駕馭個中關鍵技術,方能分析處理大資料,建立商業應用價值。
繼續訴說Wal-Mart比父親更早知道女兒懷孕的故事。 2012年初的某一天,美國明尼蘇達州有一名父親,怒氣衝衝跑到賣場並質問主管,為何將帶有嬰兒用品優惠券的廣告郵件,寄送給他正在念高中的女兒? 此舉是否鼓勵未成年女生懷孕?
然而後來事實證明,這名父親的女兒果真懷孕,賣場並非憑空亂灑廣告郵件。 人們不禁好奇,Wal-Mart何以如此神通廣大,竟然能夠隔空挖掘真相? 答案就在於大資料的即時分析,包括這名女孩搜尋商品的關鍵字詞,以及在社交網站所顯露的行為軌跡,其實都已蘊藏豐富價值,足以表明她懷孕的事實,而接下來的時間,她最需要採購哪些商品,答案便呼之欲出。
由此可見,倘若善用巨量資料即時性分析,這些看似枯燥瑣碎的資料,立即就能蛻變為饒富價值的資產,造就無窮無盡的商機。 它可以説明精品服飾業者,快速洞察顧客的喜好變化,立即形成最佳的生產銷售決策,繼而創造源源不斷的營收增長動能;它可以説明投信業者,從Tweets中分析大眾的情緒變化,藉以提高股市行情預測的精准度, 創造遠遠優於同業的基金投資報酬率。
也難怪各方都對巨量資料趨之若鶩,譬如美國歐巴馬政府即在2012年3月間做成決定,此後將投入高達2億美元的研究與開發經費,藉以改善巨量資料時代中,所需之開發、搜集、儲存、管理、分享與分析工具與技術, 以期利用這些技術加速科學及工程上的發現腳步、強化國家安全,並改善相關的教育及學習模式。
大資料為何神乎其神
的確,雖然這些神乎其技的大資料應用,無不讓企業心生嚮往,然而多數IT主管卻對於個中技術一半未解,導致影響所屬企業商業價值的產出,殊為可惜。
究竟企業如何基於大資料的分析與應用需求,提高其技術整備度? 知名研究機構Gartner在其發表的「Hype Cycle for Big Data」當中所呈現的巨量資料優先矩陣(Priority Matrix for Big Data),即已針對眾多技術今後的興衰浮沉,進行大致的預測;如此一來, 哪些技術被定位為「革命性(Transformational)」,亟需密切留意,哪些技術處於高度(High)發展的軌道,值得善加運用,而哪些技術大抵維持中度(Moderate)發展格局,未來大起的機會不高, 若要為此挹注大量投資,恐需再三思考,企業IT人員心中即有基本的譜圖與脈絡。
根據Gartner預測,從現在起的兩年之內,率先達到革命性等級的技術,便是欄位式資料庫(Column Store-DBMS),將呈現高度發展者,則為預測分析技術,至於社交媒體監控、Web分析等技術,發展狀況持平。 如此觀之,舉凡欄位式資料庫、預測分析,將會是企業亟需優先佈局的標的。
探究欄位式資料庫之所以搶得頭香,其實並不難理解,因為對於資料擷取、保存、使用、分享與分析等用途而言,資料庫系統皆堪稱是最關鍵的載體,因此其面對大資料的讀寫效率、及近即時(Near Real-Time)運算能力的強弱, 肯定需要審慎考慮;在此情況下,傳統以Row為索引存取基礎的資料庫,效能顯然不彰,無法承擔因大資料而衍生的大量工作負載(Work Load),倘若不為此做改變,後頭的進階型分析應用,可說連想都不必再想了。
當然,隨著Hadoop大行其道,連帶使得諸如BigTable、HBase或Cassandra等Key-Value資料庫開始抬頭,這些可被統稱為「NoSQL」的資料庫,不論是Key-Value Database、 In-memory Database、Graph Database或Document Database,都有別傳統關係資料庫結構,似乎都更將貼近大資料的處理需求,既然如此,何不直接採用NoSQL資料庫、而非欄位式資料庫?
事實上,NoSQL另一層意涵為「Not Only SQL」,旨在補現有SQL之不足,而非取代SQL,企業宜先從資料庫I/O需求、Schema Free需求、單一資料表的儲存需求... 等不同面向,徹底檢視其于處理大資料的過程中,究竟可能面臨哪些難題,而這些難題,哪些是SQL可以解決的、哪些又是SQL所不能解決的,莫要為了追求時髦而時髦;如此看來,欄位式資料庫被企業所倚賴的空間,確實十分寬廣,最起碼, 它對於資料的讀取效能,肯定比NoSQL資料庫強大許多。
雲端運算與記憶體資料庫 革命性技術值得關注
被Gartner點名為革命性技術的「第二梯隊」(注:預估2~5年發酵)者,則包含了兩項,分別是雲端運算、記憶體資料庫系統(In-Memory DBMS)。
至於同樣落在2~5年區間的高度發展技術,專案就相當繁多,包括先進的詐欺偵測暨分析技術、以雲端為基礎的網格運算、資料科學家、記憶體分析(In-Memory Analytics)、記憶體資料網格(In-Memory Data Grids)、政府公開資料(Open Government Data)、預測模型解決方案(Predictive Modeling Solutions)、社交分析(Social Analytics)、社交內容(Social Content),以及文本金分析(Text Analytics)。
雲端技術對於大資料處理與分析的重要性,著實無庸置疑。 先從私有雲角度來看,要想透過不管是MPI或MapReduce進行大資料的分散式運算,都需奠基於計算、儲存或網路等資源的靈活調度,值此時刻,若捨棄雲端,似乎就唯有斥鉅資部署超級電腦一途了。
其次談到公有雲。 儘管各行各業都可因大資料分析而獲益,但多數應用場域,其實並非無時無刻都需要做分析,使用頻率甚至長達每季一次、或每半年一次;在此前提下,企業若僅為了並非即時性的巨量資料分析,因而投注大量人力、 物力與時間等成本建構Hadoop環境,投資報酬率似乎不太划算,的確值得商榷。
此時此刻,企業若能以彈性付費的方式,向公有雲服務供應商,租賃大資料分析所需之計算資源,且能比照內部On-Premise管理規則進行相關設定,實在稱得上是美事一樁。 以微軟為例,即在Windows Azure公有雲端平臺上提供Hadoop租用服務,讓企業無需投資布建大量伺服器及資料庫,便可隨需推動大資料運算任務,甚至標榜能將 Windows與SQL Server方便管理的特性帶到Hadoop環境,便是相當典型的雲端Big Data服務。
至於記憶體資料庫,即是將關係資料庫、甚至是欄位式資料庫,整個置於記憶體之中,這般做法的好處是,以往最讓人詬病的磁片I/O瓶頸,即可聲應而破,從而大幅提振效能、縮短資料庫作業的回應時間;身處現今凡事講究超速的時代, 企業若能更快獲致商業運算結果,也意謂其獲得勝利的可能性愈大。
所以大家不難發現,當記憶體資料庫被Gartner預期會在2~5年成為革命性技術的同時,「In-Memory」這個字眼仍在高度發展技術象限中反復出現,包括記憶體分析、記憶體資料網格等,也就充分凸顯出,「效能」對於大資料處理, 實在太過重要,而效能表現的強弱,甚至對於最終商業應用的績效影響至巨。
另值得一提的,在Gartner點名會在2~5年轉為「中度發展」的技術名單中,其間不乏是近來非常熱門的專案,譬如MapReduce、NoSQL資料庫、資料庫SaaS(Database Software as a Service; dbSaaS),此一看似將由熱轉冷的發展趨勢,亦值得企業保持關注。
(責任編輯:施柏鵬)