「不要被大資料(Big Data)的‘Big’誤導,大資料更強調的不是資料大,而是資料採礦。 」在日前舉行的第十屆國家資訊化專家論壇上,中國工程院院士、中國互聯網協會理事長鄔賀銓指出,大資料需要更強調資料採礦利用,而針對目前存在的技術應用、人才、安全隱私等問題,最關鍵的是要有國家大資料戰略, 使其成為轉變經濟增長方式的有效抓手。
大資料的價值好似沙裡淘金
NBA從上世紀80年代開始將球員在賽場上的表現資料化,經過30多年的積累已經達到可辨別每一個球員在場上的弱點,方便教練進行針對性戰術安排。 目前30家NBA球隊俱樂部已有半數聘請了資料分析師,他們的平均勝率達到59.3%,而沒有進行資料分析的球隊僅有平均40.7%的勝率。 這就是大資料的價值體現。
大資料的價值究竟從何而來? 鄔賀銓認為,資料大與價值大未必成正比。 例如將一個人每分鐘的身體資料記錄下來,對了解該人的身體狀況是有用的,但如果將他的每毫秒的身體資料都記錄下來,資料量將較前者高6萬倍,與按每分鐘記錄的資料相比,其價值並不能增加。 大資料的價值在於樣本數的普遍性。 統計一個人每分鐘的身體狀況資料與統計60個人每小時的身體狀況資料相比,可能後者在統計上更有意義。 大資料往往是低價值密度。 大資料中多數資料可能是重複的,忽略其中一些資料並不影響對其挖掘的效果。 因此可以說大資料的價值好似沙裡淘金和海底撈針。
微軟的研究發現,Facebook 90%的Hadoop任務資料集在100GB以下,Yahoo平均為12.5GB。 北京公交一卡通乘客每天刷卡4000萬次、地鐵1000萬人次,每天累計的資料是MB級,一年下來也不到TB級,充其量只是中資料,但對這一資料量的挖掘顯然就能得出北京人群使用公交的出行規律, 對於優化北京公交線路的設置有足夠的價值。 因此鄔賀銓指出,事實上小資料也值得重視,對未到TB級規模的資料的挖掘也有價值。
網路的資料並非都可信
Google的流感指數在2008年H7N1流感爆發時給出的預測比美國疾控中心早兩周發佈,與其資料相似度0.9。 美國紐約州2013年1月流感流行狀況十分嚴峻,政府發佈了「公共健康緊急狀態」的通告,大眾媒體的廣泛報導,影響了谷歌使用者的搜索因為,導致Google的流感指數估值出現了假陽性,遠高於疾控中心的統計數值。 在谷歌流感指數的啟
發下,紐約羅切斯特大學利用Twitter的資料進行了嘗試,可以提前8天預報流感對人體的侵襲狀況,而且準確率高達90%,不過Twitter的消費者大部分是年輕人,而季節性流感的襲擾物件多為抵抗力較弱的老年人和兒童, 因此基於Twitter的微博判斷流感有片面性。
鄔賀銓由此指出,網路的資料並非都可信。 網路資料中真偽混雜,特別是微博傳播不實消息散佈很快,而微信圈子內的消息不易監控,對資訊內容管理提出挑戰。 過去往往認為「有圖有真相」,事實上圖片可以移花接木、張冠李戴、時空錯亂,或者照片是對的,可是文字解釋是捏造的,這樣的事情已經屢見不鮮。 鑒於「謠言轉發500次就是傳謠」,一些網站規定所有帖子不論是否真實一律對轉發自動封頂不超過499次,從輿情收集效果看,人為的截尾導致失去真實性。
他也指出,感應器收集的資料並非都是可信的,特別是歷史上該感應器的資料與同類的其他感應器報出的資料差異很大時,該資料就應棄用。 既然資料會有重複而且並非都是全部有用的,因此需要進行資料過濾,這對簡化存儲和提高可信性都是有意義的。 還可以利用異構多來源資料來提高可信性,收集多源異構的資料有利於對資料的理解。 例如通過城市交通監控系統可以即時掌握交通流量,如果加上政府資料和網路資料,就可能知道發生交通擁堵的原因。
要重視資料的挖掘利用
大資料的挖掘深化了資訊技術的應用,催生新的應用和新業態出現,大資料提升了管理和決策的智慧化水準,鄔賀銓提出要重視資料的挖掘利用,不僅是大資料,中小資料的挖掘也有意義。
大資料的量越大處理難度越大,但僅僅是需要更多的伺服器或者說需要更高速的伺服器。 鄔賀銓認為,大資料的主要挑戰是即時性資料變化快。 對於靜態的資料,可以將資料帶進程式來處理,但對於動態的資料,需要帶程式進資料。 大資料更大的挑戰是品種多,特別是非結構化。 對於結構化資料可以使用關係資料庫技術來處理,對於非結構化資料則要用NoSQL來處理。 針對結構化資料的虛擬存儲平臺採用了動態分層技術,根據資料被調用的頻率,自動將常用的資料搬到最高層。 針對非結構化資料使用內容歸檔平臺,把結構化和非結構化資料整合到一個單一的動態歸檔架構中,設計一套軟體和元資料庫規則,通過給資料加標籤的方式,建立不同維度,從而具有模糊查詢功能。
鄔賀銓指出,「大」僅僅是大資料的特徵之一,大資料包括ABC三個要素:大分析(Analytic)、高頻寬(Bandwidth)、大內容(Content)。 即時性是大資料採礦的挑戰,而非結構化是大資料採礦的主要挑戰。 目前國際上大資料處理技術主要還是結構性資料,據說大資料中80%以上都是非結構性資料。 2012年斯坦福大學與Google合作建立深度學習網路,對來自YouTube的上千萬幅視頻幀自主學習,用10天學會了識別貓的臉孔,然後從2萬張未見過的照片中找貓,準確率僅達到15.8%。 可見非結構性資料的挖掘技術到實用還有相當距離。 目前國內外都有很多大資料應用成功例子,但基本上還是結構性資料,對結構性資料的挖掘是大資料應用的切入點。
大資料的挑戰最終是戰略問題
鄔賀銓指出,當前大資料面臨的問題主要表現在技術和應用、人才、安全隱私、發展戰略等方面。
首先是技術和應用問題。 中國人口居世界首位,但2010年中國新存儲的資料為250PB,僅為日本的60%和北美的7%。 我國一些部門和機構擁有大量資料但以鄰為壑,寧願自己不用也不願提供給有關部門共用,導致資訊不完整或重複投資。 2012年中國的資料存儲量達到364EB,其中55%(200EB)的資料需要一定程度的保護,然而目前只有不到一半(44%,即96EB)的資料得到保護。 我國在自主可控的大資料分析技術與產品方面與發達國家相比有不少差距。 國內企業在資料庫、資料倉儲、商業智慧分析軟體等領域基礎薄弱,尤其是大資料方面已經遠遠落後于國外先進企業。
其次是人才問題。 500年前達·芬奇可以同時是畫家、音樂家、工程師、科學家,100年前的醫生可以瞭解醫學領域的所有分支,今天一名初級醫生必須同時瞭解大約一萬種疾病和綜合征、3000種藥物和1100種檢驗方法。 估計一個專業的醫生也需要每天學習21小時才能跟得上學科的發展。 Gartner諮詢公司預測大資料將為全球帶來440萬個IT新崗位和上千萬個非IT崗位,麥肯錫公司預計美國到2018年深度資料分析人才缺口達14萬~19萬人,還需要資料需求和技術及應用的管理者150萬人。 中國能理解與應用大資料的創新人才更是稀缺資源。
然後是安全與隱私問題。 大資料的利用首先要求政府資料原則上該公開的必須公開。 大資料的挖掘與利用需要有法可依。 我國需要儘快制定「資訊保護法」和「資訊公開法」,既要鼓勵面向群體而且服務于社會的資料採礦,又要防止針對個體侵犯隱私的行為,提倡資料共用又要防止資料被濫用。 安全與隱私保護的隱患仍大量存在,重要的資料存儲和應用不能過分依賴大資料分析技術與平臺,需要重視資訊洩密的風險。
最後是發展戰略問題。 資訊化要從重視硬體到重視軟體,再到重視資料的利用,不僅大資料,中小資料的挖掘也有意義。 需要制定國家大資料發展戰略,大資料是一個應用驅動性很強的服務,其標準和產業格局尚未形成,這是我國跨越發展的機會,但切忌一哄而起在目的不明情況下到處建設大資料中心,到處搞「資料房地產」,而是需要從戰略上重視大資料的開發利用 ,將它作為轉變經濟增長方式的有效抓手。
(責任編輯:蒙遺善)