大資料以其「淺顯易懂」的概念和預想中的巨大應用前景,成為了繼雲計算、物聯網之後資訊技術領域的又一熱點。 但在各界的加倍關注中,國內大資料領域的明顯進展未現,卻已經顯示出或多或少的「泡沫」。 借大資料之名圈錢圈地或進行重複建設的苗頭已然出現。 這種情況下,需要深化對大資料內涵與特徵的認識。 基於對大資料的跟蹤研究,賽迪智庫認為,可重點從四個方面進行認識和把握。
大資料發展的重點在於對資料物件的分析與應用
曾聽到專家對某地方政府領導建言,建設大規模的資料中心,備份存儲使用者的資料,就是發展大資料產業;也有機構提出發展大資料必須重點加強基礎設施建設。 這些觀點都偏離了大資料的本意,也會將大資料發展引向歧途。
從根本上看,「大資料」並非一個科學、嚴格的概念,它來自于對資料規模的爆炸性增長這一現象的歸納。 但在「海量資料」、「大規模資料」等概念已經存在的前提下,之所以還要提出新的概念,就是因為既有概念只著眼于資料規模本身,未能充分反映資料爆炸大背景下的資料處理與應用需求。 而「大資料」這一概念所以能夠引發共識,成為當前熱點,就在於各個行業領域具有了對大資料分析和利用的巨大現實需求和具體應用需求。 所以說,大資料的內涵,不僅指規模超出傳統技術處理能力的靜態的資料物件,又包含著對這些資料物件的動態的處理和應用活動。
若再考察資料的生命週期,從資料生成、資料傳輸、資料獲取,到資料處理、資料分析、資料應用,會涉及多個環節和若干層面,但就大資料而言,其重點不在於對資料的傳輸、收集、存儲,而是重在對資料的分析挖掘, 並由此獲得憑直覺難以發現的有用資訊。 惟有將重點放在資料的分析挖掘與應用上,才能最大程度地實現大資料的真正價值,也惟有分析與應用才是大資料及大資料產業發展的重中之重。 也因此,我們認為以分析處理為主要內容的大資料服務將是大資料發展的核心。
大資料物件的重點在於獲取與使用
若僅就大資料內涵中所涉及的資料物件而言,有些觀點認為,必須下大力氣做好源資料集合的建設。 這種觀點,有道理,但也不完全正確。 例如,要想運用大資料手段實現智慧交通,需要有城市的道路規劃、車輛、停車場等資料,這些資料多由政府部門所掌握,對相應資料庫確實需要加強建設。 但是,要想根據實際情況即時、靈活地管理交通,實現有效運行,僅靠以上資料遠遠不夠,還必須隨時跟蹤和整理道路流量資料、停車場容量資料、天氣資料、道路事故資訊等,而這些資料,不僅會來自于包括交管等部門,還能夠通過微博、 微信等管道獲取,甚至很多時候微博上的資訊比管理部門的資料要更加迅速。 那麼眾所周知,微博等資訊源是開放式的,任何部門都無法「擁有」這些資料,惟一能做的就是盡力抓取、儘快收集整理。 若是多分析幾個類似的事例就會發現,在處理突發事件的應用需求之下,即時出現和獲取的動態資料要比通常資料庫中的靜態資料更有價值,微博、搜尋引擎等公開來源的資料也往往比資料使用部門(如上述例子中的交管部門) 所掌握的內部資料更有價值。
因此,對於大資料所涉及的資料物件,必須分類對待。 對政府部門、公共服務中心、企業等所掌握和持續更新的資料,需要加強建設,作為資料應用的基礎。 但同時,必須重視微博、微信、社交網路、搜尋引擎等新興資料來源,做好對相關資料的跟蹤、抓取、整理和應用。
大資料作用的重點在於啟發與輔助決策
IBM最近提出了大資料的又一特徵,真實與準確。 但客觀來看,這一特徵還有待商榷。 事實上,雖然大資料應用的目標和理想結果,是通過對大資料物件的分析挖掘,發現新的知識規則和新的有用資訊,但是對於由電腦完成的大資料分析處理,不應也不能苛求其分析結果的完全準確,乃至於對於大資料所涉及的來源資料物件, 也無法要求其真實準確。
從來源資料物件看,會包括微博資料、社交網路資料、搜尋引擎資料等,由於各種原因,資料中不可避免的會包括各種錯誤資料、無用資料。 即使通過一定的資料清洗、資料過濾手段,也無法完全確保其真實性和正確性。 但大資料的價值本來就在於從紛繁複雜的資料物件中發現有用的資訊,去蕪存真本就是其要完成的過程性工作之一。 所以,真實、準確只是一個相對的概念,要向之努力,但不能強求。
從分析結果看,大資料分析處理所要求的只是發現能夠反映一定相關性的知識規則,而非完成數學公式或邏輯的推演。 類似最經典的尿布與啤酒的例子,在其關聯規則發現之初,只是知道其然而不知道其所以然的。 所以說,大資料所完成的是規則的發現,而非規則的論證。 它對研究人員、對決策者的價值,在於能夠引導和啟發大資料應用者的創新思維,輔助決策。 簡單點說,若是處理一個問題,通常人能夠想到一種方法,而大資料能夠提供十種參考方法,哪怕其中只有三種可行,也將問題解決的思路拓展了三倍。
不應過分渲染大資料的資訊安全問題
大資料的應用與資訊資源相關、與資訊技術相關,所以必然會牽涉到資訊安全問題。 但是,不能將資訊安全問題渲染過大。
一是不能無中生有造出所謂的安全問題。 例如,有觀點提出,要保護所有大資料相關源資料集合的安全。 但例如前面所列舉的微博、社交網路等資料來源,本來就是開放式的,是所有人都可以看到並且獲取,其安全性無須保護也無法保護。
二是不能將常規資訊安全問題說成是大資料帶來的問題。 例如,政府部門資料資源的保護,是一個普遍性的問題,即使沒有大資料的應用也依然存在,即使有了大資料的應用也不一定會被放大。 所以,不能輕易說大資料會帶來新的資訊安全問題。
事實上,大資料時代面臨的最大資訊安全問題,是如何防止被對手運用大資料手段從己方不小心透露的眾多細微資訊中分析出重要乃至秘密的資訊。 而防範這一點,卻恰恰不屬於大資料應用的範疇了。
(責任編輯:蒙遺善)