大資料,即將成為石油、礦產類的新能源、新生產要素和巨大的經濟資產,開啟一次重大的時代轉型,預示著新一波生產率增長和消費者贏餘浪潮的到來。 它是管理國家的手段、商務經營的法寶、未來就職的熱門,可能還是發達國家下一輪全球化競爭中的利器。
2013被稱為大資料元年。
關於大資料的圖書市面上就有20多種,其中最突出的是維克托·邁爾-舍恩伯格的《大資料時代——生活、工作與思維的大變革》(浙江人民出版社出版)。
舍恩伯格是最早洞見大資料時代發展趨勢的資料科學家之一,早在2010年就在《經濟學人》上發佈了對大資料應用的前瞻性研究,他的諮詢客戶包括微軟、惠普和IBM等全球頂級企業,被譽為「大資料商業應用第一人」。
下面,我們循著舍恩伯格《大資料時代》的脈絡,瞭解一下大資料究竟意味著什麼。
世界的本質是資料
2009年,甲型H1N1流感爆發的前幾周,谷歌的工程師在《自然》雜誌上預測大型流感傳播即將到來。 不需分發口腔試紙或調查醫生,他們建立了一個系統,在每天收到的數十億條搜索指令中關注特定檢索詞條(如「哪些是治療咳嗽和發熱的藥物」等)的頻繁使用與流感傳播之間的聯繫,及時判斷流感從哪裡傳出。 而疾控中心要到流感爆發一兩周後才能確定。
谷歌的判斷就建立在大資料基礎上:即以一種特定方式,對海量資料進行分析,獲得有巨大價值的產品和服務或深刻的洞見。
傳統經濟統計原則是以抽樣表徵總體,人類對世界的認識,很像打著手電筒筒,清晰地看到腳下的某一塊石頭;而大資料時代的資訊統計包含的樣本量是如此之大,如同一盞燈籠,可能細部不夠準確,但能照出整個環境和道路通向哪裡。 那些不很準確的最原始、看似平凡無用的資訊,經過恰當的分析,讓我們越來越接近正確——
中英人壽通過分析愛好、常流覽的網頁、常看的節目、收入估計等好幾百種生活方式資料,找出更有可能患高血壓、糖尿病和抑鬱症的人。 申請者不必提供血液和尿樣,這個純資料分析法只需5美元,可使保險公司在每人身上節省125美元;
網站內容設置依賴于資料而不是編輯的新聞敏感度,資料比有經驗的記者更能揭示哪些是符合大眾口味的新聞;
網上教育公司深度研究它收集的所有資料,比如學生重放講座視頻的哪個片斷,從而找出不明晰或很吸引人的地方回饋給設計課程的團隊......
這很像一場尋寶遊戲,通過資料科學家的巧手,這些資料的潛在價值被挖掘出來,遠超其最基本的用途。 資料發出了自己的聲音,帶給我們驚喜。 有了大資料的説明,我們會意識到本質上世界是由資訊構成的。
挖掘處理資料是「大資料」的真諦
一個男人沖進塔吉特商店,氣憤地對經理說:「我女兒還是高中生,你們卻給她郵寄嬰兒服和嬰兒床的優惠券,你們是在鼓勵她懷孕嗎? 」幾天後,當經理打電話致歉時,男人語氣變平和了:「我女兒的預產期是8月份,是我完全沒有意識到這個事件的發生,該說抱歉的是我。 」原來,塔吉特的分析團隊發現,懷孕3個月的女性會買無香乳液,之後會買鎂、鈣、鋅等營養品,有20多種關聯物能使零售商較準確地預測預產期,寄出相應的優惠券招徠顧客。
在大資料時代我們可以預測未來。 古代能夠預言天氣的人,往往被視為通神,而今需要的只是海量資訊的佔有和分析。
大資料不僅僅在於資料之大,挖掘處理才是大資料關鍵所在。 一要有收集及開發資料的特定工具,二要有集駭客和定量分析員優長於一身的資料科學家。
隨著相關技術的成熟,公共部門和私人企業過去積累的大量「垃圾」資料有可能重煥光彩。 比如用微觀居民和企業用電量資料指導智慧電網建設、用交通事故和犯罪資料指導警力佈局、用消費和稅收資料指導收入分配、用客流量資料指導鐵路和民航調配、用互聯網關鍵字傳播資料進行流行病預防等等。
沃爾瑪可謂是大資料的玩家。 在對每個顧客購物籃中的物品、具體購買時間甚至購買日的天氣分析後,研究人員發現,跟尿布一起搭配購買最多的竟是啤酒,而季節性颶風到來之前,POP-Tarts蛋撻被大量買走。 於是沃爾瑪把啤酒和尿布捆綁銷售;在颶風警報發出後,將蛋撻和手電筒筒等放在一起。 過去,總部人員需要先有想法,再收集資料來驗證;如今,他們可以預測到當A出現,B即將出現,這已經足夠珍貴。 他們不再探求難以捉摸的因果關係,轉而關注事物的相關關係。
搜集資料是否涉及隱私
一天早晨,員警沖進霍華德·馬科斯的家,後者正打算用剪刀刺殺他的妻子,因為他發現妻子給他戴了綠帽子。 員警開始控制霍華德,霍華德大喊冤枉:「我什麼都沒做啊! 」這是電影《少數派報告》中的場景。 不受限制的大資料分析可能也會導致這樣的場景:罪責的判定是基於對個人未來行為的預測。
這場即將到來的資料革命,將給企業、國家的發展模式帶來前所未有的革新與挑戰,必須從戰略高度來認識。 美國總統科學技術顧問委員會主席霍爾德倫說,像美國歷史上對超級計算和互聯網的投資一樣,大通話方案將對美國的創新、科研、教育和國防產生深遠的影響。 美國的每一項立法和計畫,都有一個資料庫和資訊管理系統與之對應。 2012年3月,美國宣佈將投入2億美元啟動「大資料發展研究計畫」,以推動大資料的提取、存儲、分析、共用和視覺化。 通用電氣也將投資15億美元在三藩市建立一個全球軟體和分析中心,擬雇傭科學家400名。 如同工業革命要開放物質交易、流通一樣,開放、流通的資料是時代趨勢的需要。
但濫用大資料也會帶來危險,當零星存在的資料被匯總,危機就出現了——不僅僅是隱私的洩露,還包括了被預知的可能性——這些能預測我們可能生病、拖欠還款和犯罪的演算法會使我們無法購買醫療保險、無法貸款,甚至在實施犯罪前被預先逮捕。 過於依賴資料,我們同樣會受到局限:因為資料量過於龐大,做出決策的將是機器而不是人類。
《大資料時代》一書的譯者、電子科技大學教授周濤提醒說,大資料也不是能解決所有問題的萬能法寶。 哈佛大學訪問學者馮煦明指出:大資料之于傳統經濟統計,是補充,而非替代。 基於抽樣、調查、匯總等程式獲得的資料仍將在經濟分析和政策制定中發揮重要的作用。 橫向來看,傳統統計方法在經濟增長、稅收、貿易、收入分配等領域的統計上具有主導優勢,而大資料在物價、通貨膨脹、失業率、消費等方面的統計上更具有優勢。
總之,這本書以豐富的事例生動展現了大資料的光芒如何照亮整個世界,而嚴謹平實的敘述框架又令人瞭解到大資料各個技術性方面。 對大資料的瞭解令我們對未來增添了憧憬和信心,難怪寬頻資本董事長田溯甯稱它是「我看到的最好的大資料著作」。
(責任編輯:蒙遺善)