誰在用大資料?
來源:互聯網
上載者:User
大資料很火,也都認可它很重要。 那都有哪些細分領域在用即時大資料分析?大資料分析目前有哪些主流技術?大資料分析有什麼挑戰?上海雲人科技有限公司,專注于大資料即時分析。 CEO吳朱華,2006年、2009年都在中關村軟體園,IBM中國研究院做一些雲作業系統的開發工作。 2009年年底,從中國IBI中國研究院離職。 2010年回到上海,寫一本書《雲計算核心技術剖析》。 2011年,在上海組建雲人科技的團隊,推出了一個產品叫Yun table。 以下是他在「2013雲世界大會」上的分享:大資料在各行業的機遇如下:金融證券(高頻交易、量化交易),電信業務(支撐系統、統一營帳、商業智慧),能源(電廠電網監控、用電資訊採集分析),互聯網與電商(使用者行為分析、 商品模型分析、信用分析),其他行業如智慧城市、物聯網。 經典的案例:智慧城市,一個城市,大概有十幾萬的攝像頭在城市里面,每秒都會發資料到雲端的資料中心裡面,每天有TB級別的資料需要處理,並且需要即時的回饋,這個場景需要即時處理的技術。 車聯網,我們有一個客戶做車聯網,他大概一個城市每台電腦上,都要裝終端,這個終端每分鐘會發一個路況的資訊發到雲端,要發一億條資料到雲端裡面,並且是每分鐘進行一些計算,即時的判斷路況,給使用者最好的行車建議。 金融證券,比如金融交易電話交易是一個主流的方向,我們為一個證券的機構構建了一個非常大的雲平臺,有幾百億條資料放在後臺裡面,可以即時的提供資料的分析,資料的介面,讓他們快速的運行。 電信,我們這邊在移動那邊有一個案例。 我們在一個省裡面,我們把一個省的所有上網的資訊,都載入到我們的集權裡面,我們的集權可以把一些統計回饋給他們,支撐他們一些業務的支撐系統,還有商業技能,還有統計相關的。 能源,主要用於電廠電網的監控,用電資訊採集的分析。 電商,即時的推廣廣告給使用者,他們可以做商品模型的分析,把最好的產品推薦給使用者。 比如說互聯網裡面,有一個商品模型,還有信用分析。 我有一個朋友是做信用分析的,在十幾秒鐘之內把這個人的資料進行一個分析,給使用者做一個評級,迅速的判斷這個使用者是不是值得放貸款給他。 為什麼需要大資料即時的分析?第一、即時的決策,量化交易,可以即時的計算資料,迅速的判斷我是買股票還是不買。 第二、提高業務效率。 第三、對於到資料,我們可以自由的嘗試一些新的演算法,或者是新的策略。 這樣通過即時的嘗試,我們可以快速發現新的觀點和機會。 第四、提供業務產出。 大資料的挑戰是什麼呢?首先是要快:10秒以內,100毫秒為佳給出結果。 互聯網公司,百度他們希望100毫秒給出結果。 一些金融機構他們希望微秒給出結果,需要即時的能力,第一點就是快,就是即時的分析。 第二、就是大,針對的資料量,是10億每TB的級別。 之前我們認為資料超過1000萬不算大。 我們現在碰到最大的集權,大概是接近萬億條資料這樣的級別。 第三、可以做各種各樣的分析操作。 最簡單的是查詢,也可以是邏輯複雜一些的演算法和資料分析。 有哪些技術可以選擇?第一個是hadoop。 它本身是谷歌研發出來的,它是在大資料方面的演算法,對於TB資料,在大方面沒有問題,並且操作多樣化。 因為他上線的工具有很多的演算法都是非常不錯的。 但是它的快比較尷尬,他需要一分鐘以內才可以,他很多要做一個reduce,需要很長的時間。 第二、NoSQL(非關聯式的資料庫)。 在大方面,應該可以支撐大。 Hbase可以滿足大的特點,它可以做到一個大。 Hbase底層是資料庫,只能支援簡單的查詢。 Hbase很難做一些邏輯複雜的資料分析和挖掘。 比如說淘寶那邊,他們可能比較有錢,他們用大量的硬體和大量的開發成本,有一套Hbase的資料開發集群。 對於中小企業,和傳統的企業是不的太適合用No SQL做分析的。 它需要巨大的硬體成本和開發成本。 傳統的資料庫甲骨文支援大資料的分析嗎?支援演算法可以,但是天生對大的資料運算比較吃力。