大資料時代的賽貝斯(Sybase)分析雲平臺

來源:互聯網
上載者:User
關鍵字 大資料 一些 這個 我們 裡面

大資料時代最熱的三個關鍵字為:雲、大資料、分析。 雲計算之熱在此不必贅述,因為不管你看微博也好,流覽網站也好,如果三頁看不到一個雲字的話,那說明你一定不在IT業。

可是,人們往往會看不透雲計算,也不知道到底該怎樣做、做什麼樣的事情。 雲計算如果不用來做分析的話,那麼你只能雲裡來、雲裡去,永遠沒辦法化雲為雨。

何為大資料? 何以據?

我們先一起看看大資料這個詞發展的歷史。

60年代的時候,人們提起資料這個詞的時候,都只提Data。 70年代創建了一個詞叫Database,從資料變成了資料庫,庫這個詞就顯得很大了。 1975年創建了一個詞叫VLDB,80年代又創建了一個詞叫Data Warehouse,HTTP://www.aliyun.com/zixun/aggregation/8302.html">資料倉儲比資料庫還要大。 到了90年代,人們才開始對資料倉儲裡面的資料做了一些事情,叫做資料採礦Data Mining。 隨著90年代末期中期到2000年這個新的世紀裡面,互聯網行業社交媒體還有雲計算等等這些技術不斷地發展,人們又覺得這些詞都不夠了,於是就有了大資料Big Data。 現在在國外已經創建了一個叫Extreme Data,也就是說大資料也不夠,還有極端資料,為什麼呢?

在我看來,大資料不過是人們在三、四十年前對資料的理解,以及對資料管理和運用手段的不斷提升,所以不要管這些詞的叫法,我們先看看大資料都做了哪些事情。

以中國的某電信運營商短信業務的資料來看,每年7000多億條短信,5年下來就是3萬多億,其實這些短信裡面還是有很多價值可以挖掘的。 想要挖掘這個東西難不難? 3萬多億行資料,先不說這個表有多寬,先說做一些數學的統計、分析,就已經是一件非常困難的事情。

大資料的4V理論

目前業界對大資料總結出來一些特徵,在這裡,我用了4V理論來概括。

第一個V,資料量,它決定了大資料的基礎架子;

第二個V,速度。 既使在大資料的資料量的規模下,企業其實還在要求能不能夠很快地把一些分析做出來。

第三個V,就是資料類型。 過去我們在金融、電信行業裡面經常做一些非常簡單的資料集,比如說號碼、姓名、年齡、主叫人的號碼、被叫號碼、主叫時間等很結構化、很整齊的一些資料。 現在有大量的資料不是結構化的,是半結構化的,比如一些文字,微博上的資訊如何去分析,這就是大資料要解決的問題;

第四個V,變異,就是不管人們怎麼去想像這些資料,它隨時還都是在變的,變動越快、越大,對我們的處理能力提出的挑戰越大。 現在大家手上已經不光是微博了,還有微信,已經加上了聲音的信號,已經有圖像甚至視頻。 如何通過一個短信或者說彩信的方式發出去,怎麼樣去處理這些資訊,其實都是我們要面臨的問題。

大資料需要分析雲平臺

分析這個詞,是在大資料或是雲計算裡面,必須要提到一個戰略高度來認識的詞。 如果你的雲計算平臺沒有考慮如何對存儲下來的一些資料進行分析的話,那你存的又是什麼? 如果你沒有辦法把這裡面的價值挖掘出來的話,你怎麼區分一個是金礦,一個是垃圾堆? 我存了大量的垃圾能夠有用嗎? 當然,沒有用處的。

大資料面臨的問題之一就是如何對資料進行快速地採集。 資料的採集是非常困難的事情,對比現在的資料庫水準和資料增長的趨勢,可以看出,資料增長速度比我們現在資料庫的處理能力要大得多。

這裡,大家可以看到一些耳熟能詳的關健詞,像Hadoop、MapReduce,像Sybase IQ代表的列式資料庫,還有Sybase Event Stream Processor事件流處理器,怎麼樣對流資料進行即時的加工, 都是企業現在需要掌握的一些技術。

大資料的分析還有一些周邊的、外延的工具,比如說像Matlab、SAS、SPSS或者現在非常火的Revolution R。 開源的裡邊有Hive、SciPy,Mahout、AMPL等等這些技術,在不同的領域裡面都有很多人在研究、在分析著。

資訊價值的挖掘有很多方法論和手段,比如說怎麼樣去做社交媒體的分析,怎麼樣去做行為分析、情緒分析。 還有就是業務場景上個人化的服務、個人化的分析、個人化的推薦等等。

現在的資料庫市場在面臨這麼大的資料,這麼複雜的資料類型,以及這麼快的變化面前,已經不再是一統天下的格局,沒有一個資料庫產品,或者沒有一種資料庫產品可以完全地解決大資料的問題。 未來的格局可能是什麼呢?

在一個企業或者是像一個IDC這樣的架構裡邊,必須要面臨一個工具箱的狀態,這個工具箱裡面有各種各樣的工具,每個工具的體驗點都是不一樣的,互相之間幾乎是不可取代的。 現在的資料庫市場也面臨這樣一個格局,很多時候做OLTP,要用行式資料庫,做大量的資料分析時要用列式資料庫,因為它可以帶來十倍、百倍的速度提高。

那麼對大資料即時的處理,我們要用做資料流程的分析資料庫、記憶體資料庫;在手機上或者說一些行動裝置上要想做一些小的應用,我們需要一些嵌入式的資料庫;還有物件導向資料庫等等。 在大資料的處理格局下,大家必須要接受這樣的一個觀點,就是專項的資料庫用於解決專項的問題。

(責任編輯:蒙遺善)

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.