改變我們生活的科學革命停留在了自然科學的邊界上,從沒有逾越而觸及人類。
如果我們像研究自然現象一樣研究人類,我們就能夠預測人類行為。
一旦收集到足夠多的資料,就可以提出這個基本的問題:我們的可預測性有多高? 並且會得到一個令人震驚的答案。
亞伯特·巴拉巴西
人類不願被放在顯微鏡下觀察
某種程度上來講,有關人類行為的統計確實有很重要的意義。 大量有關人類行為的資料該怎樣為我們所用呢? 我是一個物理學家,也可以說是一個自然科學家,我認為自然現象是可以被解析、描述,被量化的,並且是可以預測、可以控制的,這一點無可厚非。 這是科學家應該做的,也是推動科學家研究的動力。 那麼,如果我們用人類來代替之前提到的自然現象呢? 剛才那句話將變成:人類是可以被解析、描述,被量化,並且是可以預測、可以控制的。 這顯然是一個會令人感到非常恐慌的陳述。
然而,我們無須恐慌,這其實是一個好消息。 在科學領域有一個我們從不去探討的小秘密,改變我們生活的科學革命停留在了自然科學的邊界上,從沒有逾越而觸及人類。
我們不會阻止科學家去預測電子移動軌跡,卻不願預知電子危機、金融危機等;我們不介意科學家去研究基因,卻不願預知戰爭、重大的危機等。 原因非常簡單。 人類和細菌或其他有機體有一個根本的不同,即細菌不會因為被放到顯微鏡下而惱怒,月亮也不會因為飛船登陸到它的表面而提出控訴。
預測需要資料
想要預測,必須要掌握大量資料,那些說自己不需要資料就可以作預測的人不是看手相的就是商業顧問。
在對人類行為的預測方面,我們現在擁有了大量資料的支援。 我們發出的每封郵件都留下了一個人的社會關係、愛好等生活線索。 銀行瞭解我們的支付能力、品味、購買意願以及購物地點。 雖然我們常常選擇不去想這些,但事實是我們已經將自己放在了記錄事實的多倍顯微鏡下,這些資料細節讓他人可以迅速瞭解HTTP://www.aliyun.com/zixun/aggregation/32533.html"> 我們的生活。
《爆發》講的就是資料統計給掌控人類行為的研究帶來的改變。 這裡麵包括方方面面的資料,其中之一是隱私方面的資料。 《爆發》一書雖然提到了隱私,卻不是在講隱私。 它講的是我們的社會正在變成一個大實驗室,自動收集的資料揭示了人類行為模式。
說到人類行為,我首先要解釋一個問題:「為什麼一個物理學家要關注人類行為? 」事實是,物理學家關心人類行為,是想瞭解其背後複雜的系統。 這裡有很多複雜的體系值得研究。 大腦是一方面,還有經濟、細胞,以及電腦系統。 去年我們發現,要瞭解個人行為,社會是最好的平臺。 這些資料説明我們瞭解到每個人的日常行為,比如每一個神經元每一刻都在做什麼,或者說每一個基因都有什麼作用。 因為這套個人統計資料統計了每個人的行為,包括他們的行為模式、運動模式,以及方方面面,所以如果你想實用一些,並且相信每一個複雜體系都是相似的,那麼你就在朝著掌握更多資料、取得更大進展的方向前進。 過去的五年、十年中,人類社會朝著逐步變成一個本源的複雜體系、一個便於我們掌控的體系的方向發展,但這是一個漫長的過程。
所謂「爆發」,是一個人人都在遵循的行為模式,如果你觀察現實生活中人們的行為模式:什麼時候發郵件,什麼時候打電話,什麼時候流覽網頁,你一定會發現確實存在這樣的模式,我們在這一方面掌握了大量資料。 這些行為都不是隨機的,而是聚集,最終爆發。 也就是說,你會在一段很短的時間裡發出大宗郵件,然後在接下來很長一段時間裡什麼都不做,然後接下來又是一個爆發,打電話也是一樣。 所以,在過去十年我們關於人類行為一個很重要的發現就是,人類行為不是隨機的,而是聚集帶來的爆發。 而最重要的是這些行為都遵循「冪律分佈」。
當然沒有人認為自己的行為模式是隨機的,這從來就不是問題所在。 問題是,隨機行為的特點是什麼? 爆發是特點之一,而且爆發也會將我們引向下一個問題,這個我在前面也提到了。 如果我們像研究自然現象一樣研究人類,我們就能夠預測人類行為。
預測本身其實就是一個令人感到恐懼的詞。 我們要預測什麼? 我們要預測今晚會夢到什麼嗎? 我們要預測下次升職是什麼時候嗎? 或者預測我們會偶遇誰? 所有這些預測都需要資料的支援,需要大量資料的支援。 我們作預測的能力取決於我們掌握多少資料,有了這些資料我們才能說預測的可能性有多大。 所以,幾年前我開始思考這個問題時,我決定從收集人類行為軌跡的相關資料開始,即我們在哪裡,接下來又要去哪裡。 我當時沒有收集他人資料的管道,卻又非常好奇作預測的可能性,所以我決定從收集自己的資料開始。
進入大資料時代
其實,很多人行為軌跡的資料都被收集了。 現在還有人不用手機嗎? 當然,人們不會自欺欺人地去否認這個事實:即你的手機廠商知道你每一時刻都在哪裡。 他們不僅知道你的位置資訊,還知道你打的每一通電話(為了統計話費)。 他們不僅知道你在哪裡,也知道其他成千上萬的客戶在哪裡。 所以,相對於我所收集的關於自己的資料,他們掌握的資料要豐富很多。 有了這些資料,人們就可以對不同的個體進行比較。 當然,手機商很擔心這些資料會外泄,因為他們要保持使用者對他們的信任,同時外泄資訊還會受到法律的處罰。 但是近幾年,他們逐步意識到這些資料的價值所在,於是開始將資料提供給研究者和其他公司。 我的研究小組也得到了大量有關人類行為軌跡和通話模式的資訊,資訊的主人當然是匿名的,我們不知道主人是誰,也不知道他們的電話號碼。 我們只是將他們看做在宇宙中移動的小個體,就像組成汽油的溴一樣。
有了這些資料,我們終於可以問:人類行為的可預測性是多少? 人的行為可以預測嗎?
我們之前提出的問題之一是:人們每天會移動多遠? 答案很簡單。 如果你想要查一查移動這麼遠的人有多少,這是一個典型的行車距離,大部分人都會移動這麼遠。 你會發現大部分人傾向于在一個相對小的範圍內移動。 當然也有少數住在城郊的人會移動一段相當長的距離,移動範圍較小的人的數量對比移動範圍較大的人的數量正好符合一個精確的「冪律分佈」。 所以,如果你掌握了大量資料,就可以預測有多少人是旅行者,有多少人在很遠的地方上班,有多少人大多數時間待在附近,或是在家中工作。 這是我們研究的第一步。 這已經表明,在研究一個龐大的人群時,我們會發現不同人的行為是迥異的。 下一步,我們用得出的行為軌跡算出每個人的熵。
什麼是熵呢? 整個體系的熵是零,就是說這個系統的狀態很明朗,你知道每一個點在哪裡,每一個點的位置都是完全確定的,這也就是我們所說的:「熵為零。 」熵是衡量隨機性的值。 原則上,如果可以根據個人過去出現的地點寫出資料採礦運演算法則,那麼就可以百分之百地精確算出他將出現的地點,他的可預測性是1,也就是說這個人的運動完全沒有隨機性。 他每天在同一時間往返于家和單位。
我們認為人與人之間的行為模式存在很大差異,很多人的行為很難被預測,因為他們的生活豐富,並且行動無計劃性。 但是還有一些人可能更容易被預測,這種人是我們一開始就提到的,他們的行為發生在一個確定範圍內。 於是我們分別計算出了這些人的平均值,並將他們的可預測性標記在圖中。 我們測量的是大批手機使用者的可預測性,首先應該注意到的就是這個預測基數很大,峰值是93,也就是說,對於一個普通人來講,如果我們知道他過去去過的地方,原則上有93%的可能性可以準確預測出他接下來將出現的地方。 而且所有人的可預測性都高於80%。
因此,一旦收集到足夠多的資料,就可以提出這個基本的問題:我們的可預測性有多高,並且會得到一個令人震驚的答案? 如果我們談到對未來的預測,我們可以說:「如果我們擁有足夠的資料,是不是所有事情都是可以預測的? 」這是我們現在要思考的問題。
(作者系美國東北大學榮譽教授,複雜網路科學研究中心主任,《爆發》一書作者。 本文譯者為湛廬文化。 )
(責任編輯:蒙遺善)