雲計算大潮有沒有退去暫時誰也說不好,而就著名研究機構Gartner的最新調查報告顯示,雲計算領域還將保持增長趨勢,而增長的幅度將會放緩,畢竟雲計算已經風風火火了不少時間。 而今,和雲計算同樣沒有明確定義的一個新概念越來越流行——「大資料」。 而且大資料已經開始改變了IT格局,根據Gartner的資料顯示,僅2012年大資料就帶動全球280億美元的IT支出,2013年帶動的IT支出規模可望進一步增至340億美元。 而放眼目前IT巨頭多是出手延伸整個產業鏈,很少有只撰于產業鏈中某一環節的企業,但是現在卻有這樣一個公司只專注大資料,讓我們走近臺灣精誠集團雲中心,走近Big Data事業部即Etu(「知意圖」公司)負責人蔣居裕先生。
回頭看 誰走在大資料的前面?
大資料論起源肯定是美國,也流行於美國,並不是因為美國的技術有多麼發達,而是因為他們有使用者量巨大的互聯網服務基礎。 社交網路、物聯網、電子商務起步早,行動裝置普及度高等「先天」因素也讓他們的資料不再「單純」,而且單純的資料格式也無法滿足這些業務需要。 結構化資料、半結構化資料和非結構化資料的三種類型中,結構化資料目前的傳統RDBMS的技術(關聯式資料庫管理系統)相對於其他技術來說成熟而且性能優勢明顯,而對於其他兩種形式的資料,目前解決方案仍然處於成長甚至是剛剛起步階段。
對於大資料的產生,可以說毫無疑問的要歸功於互聯網公司,但實際上並不是只有互聯網公司才用到大資料,當下的銀行、保險類金融業企業、電信運營商、某些製造業領域的企業、醫療行業等都是大資料的真實而直接的使用者。 現在互聯網、電子商務、快消業的企業因為資料量增長最為迅速,而使得他們的需求走在了大資料的最前端。 蔣居裕先生認為這些公司或多或少都有自己的解決方案和技術,而從美國的經驗來看,大資料處理平臺中一個主流處理技術Hadoop,雖然不是唯一的解決方案,卻成為主要的解決方案之一,尤其是2006年被開源以後,近6、 7年的發展日趨穩定。
破解大資料誤區 Etu提出一體化解決方案
儘管有人說大資料和雲計算是截然不同的兩個概念,但是不可否認的是二者有著很多交集,甚至是「大資料離不開雲」的意味。 從硬體層上說分散式存儲、虛擬化伺服器的彈性支援等都是雲計算的重要特性,但也正因如此很多人產生了一些誤區。
·誤區一、「大資料就是存儲」,一種新的存儲技術。
而實際上這種「誤區」只是認識的片面,主要在於大資料的存儲是基礎,而更重要的是處理工作,畢竟存儲是為進一步處理做準備。 所以從這個角度來看,一般人的理解有些錯誤。 所以請記住大資料一定是存儲跟計算同時要發生的。
誤區二、行業受眾小,並非廣泛適用。
雖然大資料起源互聯網,但因為異構資料的存在,很多傳統行業其實需求更加迫切。 像圖形、圖像識別等領域、自動控制領域很多場景都需要大資料的説明。
當然,還有人會認為結構化資料處理起來相對容易,用不到「大資料」的概念,或者大資料處理可能只是BI,為企業提供商業智慧。 蔣居裕先生認為除了BI之外,有時候需要做文字或者圖形上的搜索;同樣,還有一些來自改善使用者體驗使用的,比如運營商、金融保險類公司。 在蔣居裕先生的觀點中,對資料進行了一個分層描述:
頂層:Hot Data,這是比較熱的資料,它的即時需求最高,在查詢之後幾秒鐘就要得到結果;
中層:Warm Data,有一點溫度的,它需要隨時查詢,它處理的時候不需要幾秒鐘得到結果;
底層:Cold Data,這類資料最大的特性就是看起來我不會再用到它,只需要從起來就可以了。
而這三層資料中,最容易做的其實就是底層冷資料Cold Data,只要條件允許,這部分資料可以一直沉澱在磁片上。 最直接的入手點就是頂層,大量資料採礦、資料倉儲的案例和解決方案讓基於關聯式的Hot Data容易被應用。 當然完成這所有三層資料的處理工作,已經說明這家公司有一套資料生命週期管理。 但重點還是會回到資料本身上,這些所有的資料可以做什麼?保存這麼資料到底有多大價值?也許這個問題在於是如何找出你跟同行之間不同、如何提供與競爭對手不同服務,讓使用者體驗與同行之間的出發點上。 而目前市場來看雖然很多企業有這個需求,但是大部分大資料解決方案都是以專案形式體現,沒有一個產品化或者針對某個行業而推出的標準產品推出,這讓更多的使用者很難去說清楚自己的需求,也對技術實現本身產生了巨大的阻礙, 蔣居裕先生認為這樣的現狀催生了我們推出大資料一體機Etu Appliance的原因之一。 Etu其實也是希望通過這樣的方式將軟/硬體一體的方式交付給使用者,用產品化的形式推動大資料超市。
(責任編輯:蒙遺善)