最近在社會上刮起一陣大資料的不正之風,本科生也敢拿著幾個G的硬碟聲稱這些資料能解決某某疑難問題,讓人聯想起存滿硬碟黃片的處男說這傢伙老爽了。
雖然在社會科學領域流行程度遠不及電腦和工程,谷歌學術我用關鍵字搜索一下,大資料和社會科學為內容的文章2011年是194個,2012年 635,2013年1820,這兩年算是以1.2左右的指數增長了吧。 一個話題一年一兩千篇文章並不算多,相比之下"social stratification"3721.html">2014年還沒過完就已經16800多篇了,但是大資料這個話題在網上傳的很神, 尤其是我國這個每個人什麼都懂一點但又懂得不精的土地上,有種安利好產品準備取代傳統行銷的感覺。
對碼農來說如獲至寶,世界上的資料太多,本來被認為是煤幹渣的東西現在好像也可以當鑽石了,煤窯工人揮舞鋤頭高喊:萬歲data mining!不過我認為這也沒錯,隨著技術的進步,苞米也能替代汽油,煤幹渣也可以做成首飾。 大資料對工程學是很好的,但是礦工拿煤幹渣當鑽石推銷到社會科學,說這玩意可以代替統計學和抽樣技術,我就不樂意了。 物理學家對大資料也頗有微詞,不過我不懂物理就不說了。
國外對大資料在其他領域濫用已經有了很多批評,我總結一下主要:
1,無意義的顯著性:沒有理論的大資料是皮毛,只看到顯著相關性,但不經檢驗,沒有理論,這樣的相關是沒有意義的,或許是虛假。 關鍵是:大資料的data point太多,在計算上找到兩個向量的顯著關係極其容易,但正是因為資料量大,控制虛假關係反而更難,這是一個兩難。 我有一篇文章投出去,匿名評審說:樣本很大,當然能找到顯著相關,但是看不出意義。
2,採樣方法問題:統計學家方凱撒總結了一個現象,谷歌、facebook等網路收集的資料,往往不具有同質性,是在不同的時間用不同的資源收集,隨後把整個資料合併起來,結果大資料內部許多部分的資料根本不是用同樣的方法收集的, 統計抽樣的基本假設都被推翻了。 而且網路資料和線下資料的內容不一致,比如華爾街郵報的電子版和紙版就不一樣,而且使用者可以自訂內容。
3,機器語言不穩定:谷歌最開始用關鍵字預測感冒流行地區,開始說比疾控中心預測的還准,但後來越來越不准。 有人認為這是谷歌的搜索演算法在不停地改進,所以自動收集資料不穩定了。 另外機器語言一旦被誤導會越錯越離譜,比如谷歌翻譯是根據真實的文章總結的,但是有些網路的「真實」翻譯其實是谷歌翻的,於是谷歌會把自己的翻譯基於這些 「真實」文章上。
以上歸根結底是人和機器的矛盾:資料必須讓人用理論來指導、收集,否則會出現謬誤。 這些都是可以避免或改進的,但這些原因足以讓大資料在短期之內難以在社會科學領域立足。 除此之外,我自己有一個想法,基於一個假設,認為大資料是不可能在人類行為領域立足的,研究文本或死物的歷史學、語言學或許可以,但是社會學、犯罪學、人類學這三個恐怕很難。
學抽樣的都明白,只要確定了圖1中想要的準確度 Z(a/2)^2,方差S,回答率r,基本就可以求出從一個人群中應該抽多少個樣本才能有代表性,而人群總量N的影響最後就不大了。 在95%置信區間的情況下,一個小鎮4000人,一個城市十萬人,從小鎮抽360人可以達到代表性,從那個城市抽390人照樣可以有代表性,不可能因為後者多了幾百倍就要多抽幾百倍的人。 所以大資料首先就沒有必要了,在滿足準確性的時候,小樣本和大資料的效果沒有區別;而不滿足準確性的時候,大資料的誤差只會更大。
這只是最基本的情況,實際抽樣中往往需要分層,二龍湖有十塊苞米地,有些面積大有些小,有些裡面有非法性交易,要找那塊苞米地裡有性交易,就得把十塊苞米地分成兩類:離人煙近的,離人煙遠的,賦予後者的抽樣概率要大。 這是所謂分層抽樣,現實中,幾乎所有大規模抽樣都是分層抽樣的變種。
分層抽樣的情況下,後期統計運算都必須一個權重w,如圖2,每層人數M和n都暫時不重要,權重是和phi成反比的:phi是該層被選擇的概率。 一個階層式權重高,在分析中就不可忽視。 大資料的問題是它只能收集到權重低的資料:
我們知道帕累托分佈,應用很廣,從小姐接客分佈到富豪財產分佈都可以用帕累托分佈表示。 另一種類似power distribution的Zipf曲線,P(r)=1/(r*Ln(R)),用來表示重要性和出現頻率:語言學中,一個詞日常使用頻率與它的排名成反比,chinkafir這個詞排第10000, 它的出現概率就大概是1/10000。 由於這個分佈的廣泛性,我有一個基於權重的假設:因為抽樣概率越低的分層,的權重越高;所以越難被抽樣的人群,的統計重要性越高。 現實中,最容易研究的物件往往最無聊,心理學經常上課找大學生做實驗,所以現在以大學生為樣本的文章很難發表了;而誰要在二龍湖跟浩哥混幾天,做出來的研究就算不很嚴密也依然重要。
這點才是我說大資料的第二個重要弱點,資料越大越不重要。 一個人收集了一堆權重接近0的中產階級對暴力犯罪的態度,而另一人在Cicero和Latin Kings混了兩個月,你覺得誰的結論重要?不是說前者沒有意義,普通人群在分析時是必要的,但大資料基本只能接觸到一些資料, 沒有抽樣技術的話永遠不具有代表性。 就跟安利一樣,產品或許不錯,但是推銷方式往往太傻逼,想取代傳統還需努力。
(可帶名轉載,抄襲司馬笑哈哈)
原文連結:HTTP://www.douban.com/note/422224292/