在剛剛結束的「2012年中國電腦大會」上,「大資料」是出現頻率最高的一個詞,幾乎每個主講者、每場論壇都涉及這幾個字。 同時,中國電腦學會也在大會舉行期間,正式成立了大資料專家委員會,中國工程院院士李國傑擔任主任。
什麼是大資料? 按照維琪百科的說法,大資料指在一定時間內無法用常規軟體對其內容進行抓取、管理和處理的資料集合。
2011年,《自然》雜誌(Nature)出版專刊指出,倘若能夠更有效地組織和使用大資料,人類將得到更多的機會發揮科學技術對社會發展的巨大推動作用。
美國政府把大資料看成是「未來的新石油」。 2012年3月,美國奧巴馬政府公佈了「大資料研發計畫」,旨在提高和改進人們從海量和複雜的資料中獲取知識的能力,進而加速美國在科學與工程領域發明的步伐,增強國家安全。 這是美國1993年宣佈「資訊公路」之後的又一重大科技發展部署。 美國國家科學基金會、國防部、能源部等6個政府部門和機構宣佈投資兩億美元。
其實,大資料早就在我們身邊。 我們每天通過互聯網上傳或者下載大量視頻、圖片、文字,都在產生大量資料,各種購物、社交網站更是大資料的集中之地。 國際資料公司(IDC)的研究表明,全世界的社交網路每天有2.5億張照片上傳。
2011年,全球資料總量為1.8ZB(10的21次方位元組),其中75%來自個人。 有人形象地計算了一下,這些資料如果用9GB的DVD光碟保存,疊起來的厚度是26萬公里,大約是地球到月球距離的三分之二。
不過,企業應用還是大資料的主要推動者。 生物、醫學、天文、環境、物理、工程、經濟、互聯網等諸多領域涉及大資料的處理和應用。 李國傑院士對IBM、甲骨文、微軟、谷歌、亞馬遜、Facebook等企業進行了分析。 他發現,自2005年以來,IBM投資160億美元進行了30次與大資料有關的收購,促使其業績穩定高速增長。 2012年,IBM股價突破200美元大關,3年之內翻了3倍。 華爾街早就開始招聘精通資料分析的天文學家和理論數學家來設計金融產品。 IBM現在是全球數學博士的最大雇主,數學家正在將其資料分析的才能應用於石油勘探、醫療健康等各個領域。 eBay通過資料採礦可以精確計算出廣告中的每一個關鍵字為公司帶來的回報。
大資料應用也早已在商業領域大顯身手。 金蝶國際軟體集團首席科學家張良傑介紹,他們參與搭建的全國中小公司資訊平臺,彙集了4000萬家企業,通過對這些企業海量資料的挖掘和分析,能夠對經濟運行狀況作出準確的預警,有助於國家相關部門作出應對決策。
此外,張良傑還舉例說,在微觀經濟領域,「大資料」的作用也越發凸顯。 「美國一家公司把天氣預報的資訊和資料在亞馬遜的雲平臺上進行處理,可以説明農業的種植者在特定季節中避免遭受氣象災害,很好地保障他們的收益。 在企業管理上,大資料可以為企業管理創新帶來活力。 對前一段時間的業績情況分析,來決策下一步的投資、戰略部署、產品研發。 」
國內的淘寶、騰迅QQ、新浪微博既是大資料的產生者、應用者,也是研究者。 正是由於這些應用,李國傑認為:「大資料的工程技術研究已經走在了科學前面。 」
但是當技術解決不了的問題越來越多時,就需要科學家找出共性的問題。 可是科學家並不瞭解每個領域的特點和問題,目前各個領域中「資料界」的共性還不太清楚,所以李國傑提出來:「我覺得我們搞科學,要放下身段、甘當配角。 在條件還不成熟的時候,電腦科學家應虛心地當一段時期的‘助手’。 」
在科學家如何與企業界相結合、共同解決大資料問題上,香港中文大學教授華雲生認為:「現在情況複雜,不像以前,一個方案可以解決許多問題。 大資料的研究要結合實際使用者問題,把問題、資料、平臺集中起來解決。 但現在還是不清晰、不明確。 」
李國傑則認為大資料的研究對於科學家來說,具有「顛覆性」的意義:「長期以來,許多領域都是在用小資料做科學實驗,找出一個模型和規律。 現在越來越複雜,有一堆資料看上去沒有規律。 科學家要找到新的研究方法,這種模式和方法的改變需要探索。 要研究大資料的問題在哪兒,在應用中發現什麼技術難題,這些有針對性的問題,不是憑空想出來的,是需要實踐總結出來的。 」
對於大資料的研究進展,李國傑很樂觀:「中國人多,互聯網使用者多,對大資料的需要大,需求旺盛,這對科學界是挑戰也是機遇。 」但是李國傑同時提出,目前中國許多資料掌握在不同的政府部門手中。 「有些部門把一些資料當成自己的,放那裡既不使用,也不提供給研究者。 大資料需要共用,資料開放,平臺利用,這是我國大資料研究的軟肋和需要解決的大問題。 」
(責任編輯:蒙遺善)