雲計算大潮有沒有退去暫時誰也說不好,而就研究機構Gartner的最新調查報告顯示,雲計算領域還將保持增長趨勢,而增長的幅度將會放緩,畢竟雲計算已經風風火火了不少時間。
而今,和雲計算同樣沒有明確定義的一個新概念越來越流行——「大資料」。 而且大資料已經開始改變了IT格局,根據Gartner的資料顯示,僅2012年大資料就帶動全球280億美元的IT支出,2013年帶動的IT支出規模可望進一步增至340億美元。
回頭看誰走在大資料的前面?
大資料論起源肯定是美國,也流行於美國,並不是因為美國的技術有多麼發達,而是因為他們有使用者量巨大的互聯網服務基礎。 社交網路、物聯網、電子商務起步早,行動裝置普及度高等「先天」因素也讓他們的資料不再「單純」,而且單純的資料格式也無法滿足這些業務需要。 結構化資料、半結構化資料和非結構化資料的三種類型中,結構化資料目前的傳統RDBMS的技術(關聯式資料庫管理系統)相對於其他技術來說成熟而且性能優勢明顯,而對於其他兩種形式的資料,目前解決方案仍然處於成長甚至是剛剛起步階段。
對於大資料的產生,可以說毫無疑問的要歸功於互聯網公司,但實際上並不是只有互聯網公司才用到大資料,當下的銀行、保險類金融業企業、電信運營商、某些製造業領域的企業、氣象行業、醫療行業等都是大資料的真實而直接的使用者。 現在互聯網、電子商務、快消業的企業因為資料量增長最為迅速,而使得他們的需求走在了大資料的最前端。 蔣居裕先生認為這些公司或多或少都有自己的解決方案和技術,而從美國的經驗來看,大資料處理平臺中一個主流處理技術Hadoop,雖然不是唯一的解決方案,卻成為主要的解決方案之一,尤其是2006年被開源以後,近6、 7年的發展日趨穩定。
破解大資料誤區
儘管有人說大資料和雲計算是截然不同的兩個概念,但是不可否認的是二者有著很多交集,甚至是「大資料離不開雲」的意味。 從硬體層上說分散式存儲、虛擬化伺服器的彈性支援等都是雲計算的重要特性,但也正因如此很多人產生了一些誤區。
誤區一、「大資料就是存儲」,一種新的存儲技術。
而實際上這種「誤區」只是認識的片面,主要在於大資料的存儲是基礎,而更重要的是處理工作,畢竟存儲是為進一步處理做準備。 所以從這個角度來看,一般人的理解有些錯誤。 所以請記住大資料一定是存儲跟計算同時要發生的。
誤區二、行業受眾小,並非廣泛適用。
雖然大資料起源互聯網,但因為異構資料的存在,很多傳統行業其實需求更加迫切。 像圖形、圖像識別等領域、自動控制領域很多場景都需要大資料的説明。
當然,還有人會認為結構化資料處理起來相對容易,用不到「大資料」的概念,或者大資料處理可能只是BI,為企業提供商業智慧。 實際上,除了BI之外,有時候需要做文字或者圖形上的搜索;同樣,還有一些來自改善使用者體驗使用的,比如運營商、金融保險類公司。 我們首先可以對資料進行了一個分層描述:
頂層:Hot Data,這是比較熱的資料,它的即時需求最高,在查詢之後幾秒鐘就要得到結果;
中層:Warm Data,有一點溫度的,它需要隨時查詢,它處理的時候不需要幾秒鐘得到結果;
底層:Cold Data,這類資料最大的特性就是看起來我不會再用到它,只需要從起來就可以了。
而這三層資料中,最容易做的其實就是底層冷資料Cold Data,只要條件允許,這部分資料可以一直沉澱在磁片上。 最直接的入手點就是頂層,大量資料採礦、資料倉儲的案例和解決方案讓基於關聯式的Hot Data容易被應用。
當然完成這所有三層資料的處理工作,已經說明這家公司有一套資料生命週期管理。 但重點還是會回到資料本身上,這些所有的資料可以做什麼?保存這麼資料到底有多大價值?也許這個問題在於是如何找出你跟同行之間不同、如何提供與競爭對手不同服務,讓使用者體驗與同行之間的出發點上。 而目前市場來看雖然很多企業有這個需求,但是大部分大資料解決方案都是以專案形式體現,沒有一個產品化或者針對某個行業而推出的標準產品推出,這讓更多的使用者很難去說清楚自己的需求,也對技術實現本身產生了巨大的阻礙。 這樣的現狀催生了我們推出軟/硬體一體的大資料一體機,用產品化的形式交付給使用者,推動大資料超市。
功不可沒的Hadoop是把雙刃劍
雙刃之一:內部人才與技術的壓力
其實從Hadoop宣佈開源開始,自身的不斷完善,雖然經歷了多年的發展,但是人才壓力、技術壓力還是存在的,比如一個明顯的例子就是目前老牌互聯網公司都擁有這樣一群人,他們仍然以內部專案的形式服務于公司,而非放到市場上。 目前來看,這樣的隊伍需要以產品和方案為主要任務,以垂直行業作為服務劃分的範圍,即化解了服務壓力,又能夠給客戶提供本土的技術支援服務。
雙刃之二,外部環境競爭壓力
Hadoop其實不是解決大資料的唯一途徑,不同廠商都有自己的解決方案,無論是老牌IT巨鱷,還是存儲領域的領航員都有自己的產品,而且其中不乏針對Hadoop深度優化的發行版本。 但是有一點不同的是,無論如何Hadoop僅僅是構建在作業系統上的一個「軟體」,雖然這個軟體可以管理的資料很大,但是對於作業系統的以來仍然不容忽視的。
現有的大資料一體機Appliance不止是具備它的技術價值,當使用者不知道自己在某方面的具體需求的時候、或者說有需求方向但貌似無從下手的時候,大資料一體機説明使用者進行尋找需求甚至是引導使用者挖掘需求,將不同行業的標準產品進行 「插入」,來支撐各行各業的需求。
大資料服務,一是硬體,二是軟體,三是服務,從基礎到應用,再到對業務的説明必須把這三方面捆綁起來,讓使用者體驗一站式服務。
與其說這樣是一種產品規劃策略,不如說這是一種市場培養和培育手段。 對於大資料服務,尤其是基於Hadoop的大資料服務選擇本與水土相符的服務很重要。
回歸資料 雲散之後讓資料重現真身
在雲大行其道的今天,大資料所處理的是一般企業現在所沒有處理的,所謂半結構和非結構資料。 現在企業管理軟體目前大部分是利用資料庫或資料存儲來做資料的存儲或者分析,這些只占到傳統企業裡面所有資料的15%,剩下的85%,才需要用到這種大資料的處理平臺做進一步的分析,在裡面找到競爭差異化的來源, 能夠讓客戶的體驗更加好。
但是我們常說的大資料真正的價值卻往往被人理想化。 在大資料的3V(Velocity速度、Volume體積、Variety種類)組成的3維空間中,卻經常充滿著互斥的矛盾。 當然這裡筆者故意沒有提到第四個V,原因在於Value價值的不確定因素更大,相對其他3V的指標要求更難界定,所以沒有劃入3V空間。
如果換一種看法,將這3V組成一個橢圓型,在邊緣的軌跡上任意三個點都能夠組成一個3V的三角形,而往往這個三角形形狀一定會有所偏好:有的量大,即時要求低;有的即時要求高,資料量不是特別大。 當然不同的廠商可能畫出的橢圓形狀不太一樣,可是這些都是屬於大資料要去分析處理的範疇。 而把一種新的資料處理來源引進新的資料處理平臺,引進之後,還可以給這些已經存在企業裡頭的BI系統或進到資料倉儲,企業可以用原本就存在的管理軟體直接來調用,看到它的結果。 所以從這個角度來看,其實大資料跟傳統企業資料是互補的。
IaaS、PaaS、SaaS三層雲的服務模式,IaaS和PaaS從理論上講應該是支撐SaaS服務的技術,而目前來看,尤其是國內這個有三種服務形態構成的雲三角形並不穩定, 原本應該成為營收之最的SaaS在國內仍然沒有得到充分的發揮。 換句話說,目前國內的雲業態仍然沒有得到全面的發展,目前又一窩蜂的投入到大資料的浪潮中,也許存儲技術、網路技術能夠滿足大資料的需求,但是追捧過雲的使用者們真的能夠分辨出自己對大資料的需求麼?不明需求的使用者到底要不要啟用大資料 、到底應該如何處理大資料,參考產品化的解決方案,也許是不錯的敲門磚。
轉觀一眾大資料解決方案供應商,鼓吹技術不如樹立行業標準化解決方案,靠產品打天下、靠技術服務使用者、靠概念領導業界、靠品牌構建生態系統。