移動互聯時代,數以百億計的機器、企業、個人隨時隨地都會獲取和產生新的資料
即便是在「摩爾定律」——每18個月晶片性能將提高1倍——的支撐下,硬體性能進化的速度也早已趕不上資料增長的速度,並且差距越來越巨大。
1分鐘之內,新浪微博發送數萬條微博,蘋果應用商店下載次數以萬計,淘寶賣出了幾萬件商品,百度產生了百萬次搜索查詢...... 所有這些行為都由海量的資料來呈現。
在去年12月12日電商的促銷期,淘寶網推出「時光機」——一個根據淘寶買家幾年來的購買商品記錄、流覽點擊次數、收貨位址等資料編輯製作的「個人網購志」,從而記錄和勾勒出讓人感懷的生活記憶。 背後,是基於對4.7億淘寶註冊使用者網購資料的分析處理,這正是大資料的典型應用。
隨著傳統互聯網向移動互聯發展,全球範圍內,除了個人電腦、平板電腦、智慧手機、遊戲主機等常見的計算終端之外,更廣闊的、泛在互連的智慧設備,比如智慧汽車、智慧電視、工業設備和手持設備等都連接到網路之中。 基於社會化網路的平臺和應用,讓數以百億計的機器、企業、個人隨時隨地都會獲取和產生新的資料。
互聯網搜尋引擎是大資料最為典型的應用之一。 百度日處理資料量達到數十PB,並呈現高速增長的態勢。 如果一張光碟容量為1GB,這相當於壘在一起的幾千萬張光碟。 微軟Bing(在中國為必應)搜尋引擎,一周需要回應100億次量級的搜索請求。 通過和Facebook的合作,每天有超過10億次的社交網路搜索請求通過Bing來處理。
短短的18個月,中國移動互聯網流量增加了10倍。 中國工程院院士鄔賀銓說,隨著社交網路的逐漸成熟、移動頻寬迅速提升,更多的傳感設備、移動終端接入網路,產生的資料及其增長速度比歷史上任何時期都要多,互聯網上的資料流量正在迅猛增長。 鄔賀銓認為,在雲計算、物聯網等技術的帶動下,中國的移動互聯網已經步入「大資料」時代。
而根據市場調研公司IDC的報告,全球資訊總量每過兩年就會增長一倍,2011年全球產生的資料總量為1.8ZB(1ZB約為百萬PB),相比2010年增長了1ZB,相當於全球歷史資料總和。
繼雲計算後,大資料(big data)成為資訊技術領域最為熱門的概念之一。
大資料有四個特徵,最重要的是獲得洞察力和價值
在IT業界,有人把大資料產業定義為:「建立在對互聯網、物聯網等管道廣泛大量資料資源收集基礎上的資料存儲、價值提煉、智慧處理和分發的資訊服務業」,或者如IT巨頭概括大資料戰略為:「 致力於讓所有使用者能夠從幾乎任何資料中獲得可轉換為業務執行的洞察力,包括之前隱藏在非結構化資料中的洞察力」。
「總之是對大量、動態、能持續的資料,通過運用新系統、新工具、新模型的挖掘,從而獲得具有洞察力和新價值的東西。 」微軟公司全球資深副總裁、微軟亞太研發集團主席張亞勤博士接受記者採訪時說。
雖然有多種解讀,但業界一般認為,大資料有四個「V」字開頭的特徵:Volume(容量), Variety(種類), Velocity(速度)和最重要的Value(價值)。 Volume是指大資料巨大的資料量與資料完整性。 張亞勤說,IT業界所指的資料,誕生不過60多年。 而一直到個人電腦普及前,由於存儲、計算和分析工具的技術和成本限制,許多自然界和人類社會值得記錄的信號,並未形成資料。 幾十年前,氣象、地質、石油物探、出版業、媒體業和影視業是大量、持續產出信號的行業,但那時90%以上採用的是存儲類比信號,難以通過計算裝置和軟體進行直接分析。 擁有大量資金和人才的政府和企業,也只能把少量最關鍵的信號,進行抽取、轉換、裝載到資料庫中。
張亞勤認為,儘管業界對達到怎樣的數量級才算是大資料並無定論,但在很多行業的應用場景裡,資料集本身的大小並不是最重要的,是否完整才最重要。
Variety則意味著要在海量、種類繁多的資料間發現其內在關聯。 互聯網時代,各種設備通過網路連成了一個整體。 進入以互動為特徵的Web2.0時代,個人電腦使用者不僅可以通過網路獲取資訊,還成為了資訊的製造者和傳播者。 這個階段,不僅是資料量開始了爆炸式增長,資料種類也開始變得繁多。
「這必然促使我們對海量資料進行分析、處理和集成,找出原本看來毫無關系的那些資料的‘關聯性’,把似乎沒有用的資料變成有用的資訊,以支援我們做出的判斷。 」張亞勤說。
Velocity可以理解為更快地滿足即時性需求。 資料的即時化需求正越來越清晰。 對普通人而言,開車去吃飯,會先用移動終端中的地圖查詢餐廳的位置,預計行車路線的擁堵情況,瞭解停車場資訊甚至是其他使用者對餐廳的評論。 吃飯時,會用手機拍攝食物的照片,編輯簡短評論發佈到微博或者微信上,還可以用LBS(基於位置的服務)應用查找在同一間餐廳吃飯的人,看有沒有好友在附近......
張亞勤說,如今,通過各種有線和無線網路,人和人、人和各種機器、機器和機器之間產生無處不在的連接,這些連接不可避免地帶來資料交換。 而資料交換的關鍵是降低延遲,以近乎即時——這意味著小於250毫秒——的方式呈獻給使用者。
「但比前面3個‘V’更重要的,就是Value,它是大資料的最終意義——獲得洞察力和價值。 」張亞勤說,大資料的崛起,正是在人工智慧、機器學習和資料採礦等技術的迅速發展驅動下,呈現這麼一個過程:將信號轉化為資料,將資料分析為資訊,將資訊提煉為知識,以知識促成決策和行動。
百度相關專家認為,就大資料的價值而言,就像沙子淘金,大資料規模越大,真正有價值的資料相對越少。
「所以真正好的大資料系統,重要的不是越多越好,其實越少越好。 」張亞勤說,開始資料要多,最好還是要少,把ZB、PB最終變成一個比特,也就是最後的決策。 這才是最關鍵的。
雲計算和大資料是一個硬幣的兩面,大資料正在引發全球範圍內深刻的技術和商業變革
如同雲計算的出現,大資料也不是一個突然而至的新概念。
「雲計算和大資料是一個硬幣的兩面,雲計算是大資料的IT基礎,而大資料是雲計算的一個殺手級應用。 」張亞勤說。 雲計算是大資料成長的驅動力,而另一方面,由於資料越來越多、越來越複雜、越來越即時,這就更加需要雲計算去處理,所以二者之間是相輔相成的。
30年前,存儲1TB也就是約1000GB資料的成本大約是16億美元,如今存儲到雲上只需不到100美元;但存儲下來的資料,如果不以雲計算進行挖掘和分析,就只是僵死的資料,沒有太大價值。
目前,雲計算已經普及並成為IT行業主流技術,其實質是在計算量越來越大、資料越來越多、越來越動態、越來越即時的需求背景下被催生出來的一種基礎架構和商業模式。 個人使用者將文檔、照片、視頻、遊戲存檔記錄上傳至「雲」中永久保存,企業客戶根據自身需求,可以搭建自己的「私有雲」,或託管、或租用「公有雲」上的IT資源與服務,這些都已不是新鮮事。 可以說,雲是一棵掛滿了大資料的蘋果樹。
大資料的出現,正在引發全球範圍內深刻的技術與商業變革。 在技術上,大資料使從資料當中提取資訊的常規方式發生了變化。 「在技術領域,以往更多是依靠模型的方法,現在我們可以借用規模龐大的資料,用基於統計的方法,有望使語音辨識、機器翻譯這些技術領域在大資料時代取得新的進展。 」張亞勤說。
在搜尋引擎和線上廣告中發揮重要作用的機器學習,被認為是大資料發揮真正價值的領域。 在海量的資料中統計分析出人的行為、習慣等方式,電腦可以更好地學習類比人類智慧。 隨著包括語音、視覺、手勢和多點觸控等在內的自然使用者介面越來越普及,計算系統正在具備與人類相仿的感知能力,其看見、聽懂和理解人類使用者的能力不斷提高。 這種計算系統不斷增強的感知能力,與大資料以及機器學習領域的進展相結合,已使得目前的計算系統開始能夠理解人類使用者的意圖和語境。 「這使得電腦能夠真正説明我們,甚至代表我們去工作」。
在商業模式上,張亞勤認為,對商業競爭的參與者來說,大資料意味著激動人心的業務與服務創新機會。 零售連鎖企業、電商業巨頭都已在大資料採礦與行銷創新方面有著很多的成功案例,它們都是商業嗅覺極其敏銳、敢於投資未來的公司,也因此獲得了豐厚的回報。
IT產業鏈分工、主導權也因為大資料產生了巨大影響。 以往,移動運營商和互聯網服務運營商等擁有著大量的使用者行為習慣的各種資料,在IT產業鏈中具有舉足輕重的地位。 而在大資料時代,移動運營商如果不能挖掘出資料的價值,可能徹徹底底被管道化。 運營商和更懂使用者需求的協力廠商開發者互利共贏的模式,已取得一定共識。
(責任編輯:施柏鵬)