7月9日,美國《連線》雜誌近日刊登了一篇關於大資料的評論文章。 作者認為,如果缺乏對人們現實生活的實地調查,大資料沒有什麼意義。
在短短的幾十年裡,「技術天才」與社會的關係已經改變:他們從關在屋裡的孤獨者變成救世主,從反社會者變成社會的最大希望。 許多人現在似乎相信,理解我們這個世界的最佳方式,就是坐在電腦螢幕前分析我們稱之為「大資料」的海量資訊。
關於這一點,我們只要看看 「谷歌流感趨勢(Google Flu Trends)」。 2008年,當谷歌推出這項服務時,矽谷的許多人將它鼓吹為表明大資料將很快淘汰傳統分析方式的一個標誌性產品。
但他們錯了。
「谷歌流感趨勢」不僅沒有提供流感傳播的精確描述,也無法實現大資料鼓吹者的美夢。 這是因為,如果沒有「厚資料」(豐富的、具有前後關聯性的資料,它們只能通過丟開電腦、深入實際生活才能獲得),大資料就沒有意義。 電腦極客們曾經因為不能適應社會生活而被嘲笑,他們被告知應該「多出去走走」。 實際上,如果大資料的信徒們希望理解這個他們也在參與塑造的世界,他們真的需要多出去走走。
谷歌的失敗與演算法無關
「谷歌流感趨勢」的目的是:找出人們在流感季節常用的搜索詞,然後即時跟蹤這些搜索詞的使用高峰期。 這樣,谷歌就可以在新流感爆發之前發出警報,而且預警時間要比官方疾病防治中心的預警時間早大約兩周。
對很多人來說,「谷歌流感趨勢」已經成為大資料的一個典型代表,它表現了大資料的巨大力量。 在暢銷書《大資料:一場改變生活、工作和思考方式的革命》(A Revolution That Will Transform How We Live, Work and Think)中,作者維克托•邁爾•舍恩柏格(Viktor Mayer-Sch önberger)和肯尼斯•庫克耶(Kenneth Cukier)宣稱,與政府滯後的資料相比,「谷歌流感趨勢」是更有用、更及時的流感指示器。
然而,著名的《科學》雜誌本月刊登一篇文章告訴我們,自2011年8月以來,「谷歌流感趨勢」幾乎每週都會高估流感的盛行率。
而在2009年,就在「谷歌流感趨勢」推出後不久,它竟然完全沒有察覺豬流感的爆發。 事實上,人們在流感季節的許多常用搜索詞與流感無關,而與流感的通常爆發季節——冬季——密切相關。
許多人爭論道,「谷歌流感趨勢」的失敗緣于大資料的不成熟。 這種觀點沒有切中要害。 當然,調整演算法、提高資料收集技術將會讓下一代大資料工具變得更有效。 然而,大資料鼓吹者真正的狂妄之處不在於對一套不成熟的演算法過於自信,而在於盲目地相信坐在電腦螢幕前搗鼓一些數位就可以充分理解世界。
為什麼需要厚資料
大資料僅僅是大量的「薄資料」,它們是通過對人們的活動和行為進行跟蹤而獲得的。 我們最常去的地方,我們在網上搜索的東西,我們每天睡了多久,我們有多少連絡人,我們所聽的音樂類型等等。 這些資料是通過你瀏覽器中的「cookies」、你戴在手上的FitBit腕帶或你手機上的GPS來收集的。 這些資訊無疑是重要的,但我們不能通過它們來獲得對人的完整理解。
為了真正地瞭解人,我們不久需要大資料,而且需要厚資料。 厚資料不僅包括事實,而且包括事實的前後聯繫。 比如說,美國有86%的家庭每週會喝掉6夸脫以上的牛奶,但是她們為什麼喝牛奶? 他們是怎麼喝的? 一塊包含三種顏色、繡著星星和條紋圖案的布,這是薄資料;一面在風中飄揚的美國國旗,這是厚資料。
基於「我們做了什麼」,大資料對我們進行簡單化的理解;厚資料則試圖通過我們與周圍世界的聯繫來理解我們。 只有理解人與周圍世界的聯繫,人們才能從整體上認識這個世界,這恰恰也是谷歌、facebook等公司想要做的。
理解我們這個世界
想想矽谷的那些宏偉宣言。 谷歌的宗旨是「組織全球資訊,使人人皆可訪問它們並從中獲益。 」馬克·紮克伯格(Mark Zuckerberg)最近對投資者表示,在全球化和知識經濟日益受到重視的當今世界,Facebook致力於一個新的使命:「理解這個世界」。 他說:「人們每天在Facebook上發佈數十億條內容和連結。 在他們的説明下,我們通過專門的演算法機制為世界上所有事物建立最清晰的模型。 」甚至有一些小公司也參與了「理解這個世界」。 去年,Jawbone公司的副總裁耶利米•羅賓遜(Jeremiah Robison)說,他們的健康跟蹤設備Jawbone UP的目標是「理解(人的)行為變化的科學。 」
這些目標的確很大。 企業渴望更好地理解社會,這不足為怪。 畢竟,瞭解與客戶行為及社會文化相關的資訊,這對企業經營來說是必不可少的。 而且,在知識經濟時代,這些資訊本身已經成為一種通貨,它們可以換來點擊率、流覽量和廣告收入。 或者更簡單地說,它們可以換來權力。 在這個過程中,如果谷歌、facebook等公司能不斷説明我們增進對自身的集體知識,它們獲得更多權力也是正當的。 問題在於,如果它們聲稱電腦能夠組織我們的所有資料,或能夠向我們提供關於流感、健康或社會關係等各方面的完整理解,那麼,它們從根本上小看了「資料」和「理解」的意義。
如果矽谷的大資料鼓吹者真想「瞭解世界」,那麼他們不僅需要掌握大資料,也需要掌握厚資料。 不幸的是,要獲得後者,他們需要丟開電腦去實地體驗這個世界,而不是僅僅通過谷歌眼鏡(或通過facebook的虛擬實境設備)來觀察世界。
人們的行為情境
如果你對一個領域高度熟悉,有能力填補資訊空白並想像人們的行為原因,那麼「薄資料」將是有用的。 換句話說,如果你能夠想像並重建人們的行為的發生情境,你所觀察到的行為才是有意義的。 如果缺乏對行為情境的瞭解,就不可能推出任何因果關係,也不可能理解人們的行為原因。
這就是為什麼研究人員在科學實驗中要竭盡全力控制實驗室的環境,以創造一個各種影響因素都被考慮在內、徹底的人工廠所。 不過,真實世界並不是一個實驗室。 要確保你對陌生世界的情境有所瞭解,唯一的途徑是實地觀察並內化和解釋正在發生的每一件事。
人們的背景知識
如果說大資料擅長觀察人們的行為,那麼它不擅長的就是理解人們對每樣事物的背景知識。 我是怎麼知道每次刷牙時該用多少牙膏的? 我是怎麼知道何時該進入另一個交通通道的?眨眼是表示「真有趣」還是「我的眼睛進了東西」? 這些都涉及人們的內在能力、無意識和背景知識,它們控制著人們的大多數行為。 跟周圍的事物一樣,這些不可見的背景知識只有在觀察者主動去看的情況下才能被發現。 不過,它們卻對每個人的行為有著重要影響。 它能夠解釋事物與人的聯繫,以及事物對人的意義。
人類學及社會科學中有大量觀察和解釋人類行為的方法。 研究人員不但觀察人的行為,而且考查他們所處的情境和他們擁有的背景知識。 這些方法有一個共同的特點:它們要求研究者深入混亂而真實的人類生活。
沒有哪一個單獨的工具能夠成為理解人類的超級武器。 儘管矽谷有許多出色的發明,不過我們對任何數位技術的期望都應該有個限度。 「谷歌流感趨勢」真正教給我們的是:不能僅僅問這些資料有多「大」,還要問這些資料有多「厚」。
有時,走進真實的生活會得到更好的結果。 有時,我們必須要丟下電腦。