你在數位方面很拿手?資料令你感到著迷?那麼你聽到的聲音是機會正在敲門。
作為一名剛剛畢業的耶魯大學MBA(工商管理碩士),周默(音譯)在去年夏天被IBM搶聘,加入了該公司迅速增長中的資料顧問團隊。 IBM資料顧問的職責是説明企業弄明白資料爆炸背後的意義——網路流量和社交網路評論,以及監控出貨量、供應商和客戶的軟體和感應器等——用來指導決策、削減成本和提高銷售額。 「我一直都熱愛數位。 」周默說道,她的崗位是資料分析師,與其所學的技能相符合。
為了開發資料洪流,美國將需要許多象她一樣的人。 據顧問公司麥肯錫旗下研究部門麥肯錫全球學會(McKinsey Global Institute)去年發佈的一份報告顯示,預計美國需要14萬名到19萬名擁有「深度分析」專長的工作者,以及150萬名更加精通資料的經理人, 無論是已退休人士還是已受聘人士。
資料充斥所帶來的影響遠遠超出了企業界。 舉例來說,賈斯汀-格裡莫(Justin Grimmer)是新生代的政治科學家,他現年28歲,在斯坦福大學任助理教授。 在大學生和研究生時期的研究報告中,他將數學與政治科學聯繫起來,稱其看到了「一個機會,原因是紀律正日益變得資料密集化」。 他研究的內容涉及對博客文章、國會演講和電子報進行電腦自動化分析等,希望藉此洞察政治觀點是如何傳播的。
在科學和體育、廣告和公共衛生等其他許多領域中,也有著類似的情況——也就是朝著資料驅動型的發現和決策的方向發生轉變。 哈佛大學量化社會科學學院(Institute for Quantitative Social Science)院長加里-金(Gary King)稱:「這是一種革命,我們確實正在進行這場革命, 龐大的新資料來源所帶來的量化轉變將在學術界、企業界和政界中迅速蔓延開來。 沒有哪個領域不會受到影響。 」
歡迎來到「大資料時代」(Age of Big Data)。 矽谷新貴們——最初是在谷歌(微博),現在是在Facebook——都精通于駕馭網路資料(網路搜索、帖子和資訊等)與互聯網廣告之間的關係。 在上個月于瑞士達沃斯召開的世界經濟論壇上,大資料是討論的主題之一。 這個論壇上發佈的一份題為《大資料,大影響》(Big Data, Big Impact)的報告宣稱,資料已經成為一種新的經濟資產類別,就像貨幣或黃金一樣。
「生命中的一天」(Day in the Life)系列攝影作品的創作人裡克-斯莫蘭(Rick Smolan)正計畫在今年晚些時候推出一個新專案,這個名為「大資料的人類臉孔」(The Human Face of Big Data) 的專案將記錄資料的採集和使用。 斯莫蘭是一名狂熱分子,他認為「大資料」有成為「人性儀錶盤」的潛力,也就是一種能説明人類與貧窮、犯罪和污染等現象展開鬥爭的智慧工具。 而私人部門的宣導組織則持有悲觀的觀點,警告稱「大資料」與「獨裁者」(Big Brother)同出一轍,只是披上了企業的外衣。
什麼是「大資料」?這當然是一個帶有文化基因和行銷理念的詞彙,但同時也反映了科技領域中正在發展中的趨勢,這種趨勢為理解這個世界和作出決策的新方法開啟了一扇大門。 根據科技研究公司IDC作出的估測,資料一直都在以每年50%的速度增長,換而言之,也就是每兩年就增長一倍。 這不是簡單的資料增多的問題,而是全新的問題。 舉例來說,在當今全球範圍內的工業設備、汽車、電子儀錶和裝運箱中,都有著無數的數位感應器,這些感應器能測量和交流位置、運動、震動、溫度和濕度等資料,甚至還能測量空氣中的化學變化。
將這些交流感應器與計算智慧連接起來,那麼你就會看到所謂的「物聯網」(Internet of Things)或「工業互聯網」(Industrial Internet)。 在資訊獲取的問題上取得進步也是促進「大資料」趨勢發展的原因之一。 舉例來說,政府資料——聘用資料及其他資訊——一直都在穩步地向網路轉移。 在2009年中,美國政府通過啟動Data.gov網站的方式進一步開放了資料的大門,這個網站向公眾提供各種各樣的政府資料。
資料不僅僅是正在變得更加可用,同時也正在變得更加容易被電腦所理解。 「大資料」發展趨勢中所增加的大部分資料都是在自然環境下產生的,比如說網路言論、圖片和視頻等不受控制的東西,以及來自于感應器的資料等。 這些是所謂的「非結構化資料」,通常不能為傳統的資料庫所用。
但是,旨在從互聯網時代非結構化資料的龐大「寶藏」中獲得知識和洞察力的電腦工具正在迅速發展中。 在這種工具發展的最前沿是迅速取得進步的人工智慧(AI)技術,比如說自然語言處理、模式識別和機器學習等。
這些人工智慧技術能應用於許多領域。 舉例來說,谷歌的搜索和廣告業務及其實驗中的機器人(19.360,0.69,3.70%)汽車都利用了很多的人工智慧技術。 在加利福尼亞州的公路上,谷歌的機器人汽車已經跑了數千英里的路。 谷歌的這兩項業務都讓「大資料」時代的挑戰卻步,它們對數量龐大的資料進行分析,並作出暫態的決策。
反過來,大量的新資料也正在加快計算領域的進步,這是「大資料」時代中的一個良性迴圈。 舉例來說,機器學習演算法能基於資料來進行學習,資料越多機器就能學到越多。 以蘋果在去年秋天推出的iPhohne手機Siri語音助理服務為例,這個應用的源頭可回溯至五角大樓的一個研究專案,該專案隨後被分離出來,成為了一家矽谷創業公司。 蘋果在2010年收購了Siri,並繼續向其提供更多資料。 時至今日,在人們提供成百上千萬條問題的環境下,Siri正在變成一種日益熟練的個人助理,能向使用者提供提醒服務、天氣預報、餐飲建議和對大量問題作出解答等服務。
麻省理工學院斯隆管理學院的經濟學教授埃裡克-布呂諾爾夫松(Erik Brynjolfsson)稱,如果想要理解「大資料」的潛在影響力,那麼可以看看顯微鏡的例子。 顯微鏡是在四個世紀以前發明的,能讓人們看到以前從來都無法看到的事物並對其進行測量——在細胞的層面上。 顯微鏡是測量領域中的一場革命。
呂諾爾夫松解釋稱,資料測量就相當於是現代版的顯微鏡。 舉個例子,谷歌搜索、Facebook帖子和Twitter消息使得對人們行為和情緒的細節化測量成為可能。
呂諾爾夫松進一步指出,在商業、經濟及其他領域中,決策行為將日益基於資料和分析而作出,而並非基於經驗和直覺。 「我們能開始變得遠為科學化。 」他這樣說道。
有很多的軼事證據表明,資料至上的思考方式將帶來很高的回報。 其中,最著名的例子仍舊是邁克爾-路易斯(Michael Lewis)在2003年出版的《點球成金》(Moneyball)一書, 這本書記錄了低預算的奧克蘭運動家隊是如何利用經過分析的資料和晦澀難解的棒球統計學來找到被評價過低的棒球手的。 在布拉德-皮特(Brad Pitt)主演的電影版《點球成金》去年被搬上銀幕以前,深度的資料分析就不僅已經成為棒球領域中的標準,而且在英國足球聯賽等其他體育專案中也是如此。
沃爾瑪(WMT)和Kohl’s等零售商也已經開始對銷售額、定價以及經濟學、人口統計學和天氣資料進行分析,藉此在特定的連鎖店中選擇合適的上架產品,並基於這些分析來判定商品減價的時機。 UPS等貨運公司也正在對卡車交貨時間和交通模式等相關資料進行分析,以此對其運輸路線進行微調。
Match.com等交友網站也經常會仔細查看其網站上列出的個人特徵、回應和交流資訊,用來改進其演算法,從而為想要約會的男女提供更好的配對。 在全美範圍內,以紐約市為首的警方部門也正在使用電腦化的地圖以及對歷史性逮捕模式、發薪日、體育專案、降雨天氣和假日等變數進行分析,從而試圖對最可能發生罪案的「熱點」地區作出預測,並預先在這些地區部署警力。
呂諾爾夫松及其兩名同僚在去年發表研究報告稱,資料指導下的管理活動正在美國企業界中蔓延開來,而且這種管理活動正開始獲得回報。 這三名學者對179家大型公司進行了研究,發現那些採用「資料驅動型決策」模式的公司能將其生產力提高5%到6%,這種生產力的提高是很難用其他因素來解釋的。
在公共衛生、經濟發展和經濟預測等領域中,「大資料」的預見能力正在被開發中,而且已經嶄露頭角。 研究者發現,曾有一次他們發現「流感症狀」和「流感治療」等詞彙在谷歌上的搜索查詢量增加;而在幾個星期以後,到某個地區醫院急診室就診的流感病人數量就有所增加(還需要指出的是, 醫院急診室發佈報告的時間通常要比病人就診的時間晚上兩個星期左右)。
聯合國(微博)已經推出了名為「全球脈動」(Global Pulse)的新專案,希望利用「大資料」來促進全球經濟發展。 聯合國將進行所謂的「情緒分析」,使用自然語言解密軟體來對社交網站和文本消息中的資訊作出分析,用來説明預測某個給定地區的失業率、支出削減或是疾病爆發等現象,其目標在於利用數位化的早期預警信號來提前指導援助專案, 以阻止某個地區重新陷入貧困等困境。
在經濟預測領域中,已經有研究表明,與不動產經濟學家所作出的預測相比,谷歌上住房相關搜索查詢量的增加或減少的趨勢能更加準確地預測未來一個季度中的住房市場走勢。 美聯儲及其他機構已經注意到這一點。 在去年7月份,美國國家經濟研究局(National Bureau of Economic Research)主持召開了一次研討會,此次會議所討論的內容是「大資料時代的機會」及其對經濟領域的影響。
「大資料」還已經令針對社交網路運作方式的研究發生了變化。 在20世紀60年代,哈佛大學的斯坦利-米爾格拉姆(Stanley Milgram)利用包裹作為研究媒介,進行了一項與社交網路相關的著名實驗。 他將包裹寄往美國中西部地區的志願者,指導他們如何將包裹帶給波士頓的陌生人,但不能直接交付;參與實驗者如果想要通過郵寄方式來交付包裹,那麼目標物件就是能是他們認識的人。 結果表明,一個包裹換手的平均次數相當之低,僅為6次左右。 這是對所謂「小世界現象」的經典闡釋,據此形成了「六度分隔」(six degrees of separation)的流行詞彙。
時至今日,社交網路研究的內容涉及如何採集龐大的數位化資料集合,用來闡釋網路上的集體化行為。 這種研究的結果表明,你認識但不經常聯繫的人——在社會學中被稱為「微弱聯繫」(weak ties)——是職務空缺小道消息的最佳來源,原因是與關係親密的朋友相比,這些人在略有不同的社交世界中穿行, 因此能看到你和你最好的朋友們所無法看到的機會。
在有關某個主題的交流中,研究學者們還能看到其影響模式和高峰——舉例來說,可以通過追蹤Twitter上的趨勢標籤的方式來達成這個目標。 對於數量龐大的使用者人群來說,Twitter這個線上「玻璃魚缸」是透視其即時行為的視窗。 康奈爾大學教授喬恩-克倫伯格(Jon Kleinberg)稱:「我尋找的是資料中的‘熱點’,這是我需要理解的一種活動爆發的現象。 只有通過‘大資料’,你才能做到這一點。 」
毫無疑問,「大資料」本身也存在一些風險。 統計學家和電腦科學家指出,「大資料」的集合和高密度的測量將令「錯誤發現」的風險增長。 斯坦福大學的統計學教授特來沃爾-哈斯迪(Trevor Hastie)稱,如果想要在龐大的資料「乾草垛」中找到一根有意義的「針」,那麼所將面臨的問題就是「許多稻草看起來就像是針一樣」。
此外,對於統計學惡作劇和有偏見的實情調查活動而言,「大資料」也提供了更多的原材料。 「大資料」為一個老把戲提供了高科技的手段,那就是——我知道事實,現在讓我們來找到事實吧。 喬治梅森大學的數學家瑞貝卡(7.82,0.11,1.43%)-高爾丁(Rebecca Goldin)稱,這是「最有害的資料使用方式之一」。
資料已被電腦和數學模型所馴服和理解,這些模型就像是文學中的隱喻修辭,也就是一種簡化後的解釋方式。 對於理解資料而言,這些模式是有用的,但它們也存在局限性。 私人部門的宣導組織發出警告稱,一個基於網路搜索的模式可能會發現一種相關性,從而作出不公平或是帶有歧視性的統計推斷,對產品、銀行貸款和養老基金提供的醫療保險造成影響。
雖然面臨著這種警告,但「大資料」時代的降臨看起來已是無可逆轉。 資料已經坐到了駕駛員的位置上,它就在那裡,有用而且寶貴,甚至還很時尚。
資深資料分析師稱,長期以來,朋友們一談到他們的工作就會變得厭煩,但現在突然變得好奇起來。 這些分析師們認為,《點球成金》是促成這一變化的原因之一,但實際原因遠非如此簡單。 哥倫比亞大學統計學家兼政治科學家安德魯-格爾曼(Andrew Gelman)稱:「文化已經發生了改變。 現在人們的想法是,數位和統計學是有趣的,是一種很酷的東西。 」
(責任編輯:蒙遺善)