近年來,大資料在我國得到一致重視,各行各業興起了一股重視大資料、應用大資料的熱潮。 這種全民迅速接受新生事物的現象,反映了中國經過改革開放,現代化意識深入人心的可喜狀況,令人鼓舞。 但是,由於HTTP://www.aliyun.com/zixun/aggregation/13568.html">大資料技術發展迅速,一些囫圇吞棗的淺知誤見也隨之流傳,如不及時糾正,將造成對大資料先入為主的誤區, 影響經濟社會發展。 當前國內十分流行的《大資料時代》(維克托·邁爾-舍恩伯格等著,178.html">浙江人民出版社,2013年,以下簡稱《時代》)中提出了三個存在嚴重謬誤的觀點,特此指出,以期引起注意。
「不是因果關係,而是相互關係」?
《時代》一書的主要觀點之一是,大資料時代「不是因果關係,而是相互關係」。 其實,早在18世紀,英國懷疑論者休謨就指出,「不但我們的理性不能説明我們發現原因和結果的最終聯繫,而且經驗給我們指出它們的恒常結合以後,我們也不能憑自己的理性使自己相信, 我們為什麼把那種經驗擴大到我們所曾觀察過那些特殊事物以外。 我們只是假設,卻永遠不能證明,我們所經驗過的那些事物必然類似于我們所未曾發現的那些物件。 」
《時代》一書將這一早已提出幾個世紀的觀點,作為大資料時代的新概念,不僅陳舊,而且錯誤。 因為,簡單地說大資料時代「不是因果關係,而是相互關係」,說明作者不了解因果關係本身也是一種相互關係,即原因與結果前後相繼的相互關係,因此將因果關係歸結為相互關係並不比因果關係本身更有內涵,實際上,這甚至是一種同義反復。
正確的觀點應該明確因果關係是一種什麼樣的相互關係,而這一點經過20世紀自然科學和數理哲學的研究已經有了更深刻的認識。 電腦的發明,使得人們開始從電腦語言表達、傳遞資訊的角度來理解知識的起點。 大資料時代的到來,使得人們豁然開朗。
經濟學者李德偉教授在《時代》中譯本發表之前,就已提出大資料時代不再強調因果關係,也不是簡單地將因果關係歸為相互關係,而是精確地指出客觀事物運動序列之間存在同構關係,特別是人類認識與外部客觀事物之間存在對應的、同構的關係, 資訊的表達、傳輸和存儲就是一種同構關係,也就是說,外部客觀事物運動與人的主觀認識都是客觀世界的事物現象,是協調性的、一一對應的相互關係,主觀認識映射只是承載、傳遞外部客觀事物現象的一種符號系統。 無論是從人自身悟出來,還是從外部經驗事物抽象出來,都是同構的、對應的關係。
「不是隨機樣本,而是全體資料」?
《時代》一書認為大資料時代「不是隨機樣本,而是全體資料」,認識事物不再是從隨機抽取的部分樣本,而是從全部資料出發。 這種說法忽視了全部與部分的辯證關係。 人類在有限的時間內不可能窮盡事物的全部,絕對真理只能在人類前後相繼的、永遠不會停止的認識過程中實現。 任何事物的發展總是有過去、現在和未來,現在的是現在,未來的尚未出現,全部案例不可能在有限時間內達到,認識也永遠不會完結。 未來的與過去和現在相比還是無窮大的。 正因為如此,波普爾才提出,「全稱命題不可證實,只能證偽。 」
實際上,過去的小資料時代的抽樣調查方法與現在的大資料方法相比,只能說是大資料時代可以用更為精確的、全面的資料,以包含更大因素的模擬模型來追蹤、分析類比現實,取得比過去更為精確的認識結果。 儘管如此,與全體相比,已經認識的永遠是少數,誤差、錯誤還是不能完全消除。 例如,通過人口普查分析現在中國人具有什麼特點。 不要說全部認識現有13億人口的全部屬性不可能(因為事物屬性有無窮層次),即使說能夠完全認識現有13億人口全部屬性,也不意味著過去、未來的中國人,也能夠全部認識。 未來的中國人與已經認識的現有中國人相比還是無窮大。 因此,大資料與小資料相比只是以巨量的、全面的、即時的資料來認識事物,但是要掌握全體資料在有限時間內總是不可能的。
「不是精確性,而是混雜性」?
《時代》作者說大資料時代「不是精確性,而是混雜性」,意指小資料時代是講究精確性,大資料時代因為掌握了大量資料可以不再拘泥于精確性,而是依靠大資料比較模糊地行動。 這顯然是錯誤的。 因為在小資料時代能夠掌握精確的小資料,但是大多數資料卻被遺漏、捨棄,認識的結果就無法實現精確、全面,真理和錯誤的邊界也不是很清楚,這時的認識是模糊的、有偏差的。 在大資料時代,因為掌握了更為全面的資料,可以在更大的範圍認識事物,因此,能夠更為準確、量化,以至於對一些中間模糊區域也可以得到更為準確的認識,其精確度和模糊度、誤差本身都更為精確量化。 例如,在電腦資訊系統中,發佈更多的資訊,通過反復比對、糾錯機制,降低噪音,到達精確度。 這一點在人類的認識活動中本來就是這樣做的,「耳聽為虛」就以「眼見為實」來糾錯,小資料一兩個來回不可能正確,反復多次大資料比對,就能達到越來越高的精確度,誤差率就越來越小。
中國人口世界第一,資訊產業市場最大,最有機會發展資訊化、大資料和智慧化產業。 但中國目前在對大資料的認識上有一種盲目跟外國之風的傾向。 對於國外大資料理論,我們應以批判的眼光保持清醒的認識。
您還可以流覽:
1.大資料時代哪些資料分析不了
2.大資料時代需要想像力
3.《大資料時代》讀後體會