摘要: 8月14日,騰訊網在正院會館舉辦了一場夏季思享會,而這次思享會的主題就是大資料。 有意思的是,這次關於大資料的分享會請到了來自各個領域的學者和專家,是一場跨學科的思想碰
8月14日,騰訊網在正院會館舉辦了一場夏季思享會,而這次思享會的主題就是「大資料」。 有意思的是,這次關於大資料的分享會請到了來自各個領域的學者和專家,是一場跨學科的思想碰撞。 在現場的我聽完了整場分享,有趣的觀點不少,還有一些觀點是目前國內關注大資料的人們不太提及的,非常思辨。 在這裡,我也跟大家分享一些來自思享會上的有趣觀點。
海量資料的應用正在改變我們現有的生產方式,其不僅成為了一個重要的生產要素,還在一定程度上提高了生產效率。 這時,海量資料應用帶來的資訊風暴不僅影響到我們的工作、生活,還可以逐漸影響我們的思維方式。 有人說大資料本身是一場革命,這場革命就是把「量化」這個概念推動到我們生活中的方方面面。
1、關於大資料帶來的機遇可以說是學界業界一致認同的,而北大新聞與傳播學院的劉德寰教授卻提出,大資料也可以是「大忽悠」,甚至存在大風險。
大資料就一定是全資料嗎?
即使是像BAT這樣的互聯網巨頭,他們所擁有的資料也只是一座」資料孤島「。 因此,很多大資料其實是斷裂且封閉的。 在這一座座孤島被打破之前,大資料都無法稱」全「。 這種大而不全的資料導致我們無法真正獲得想要的規律。
大資料也許會帶來「假規律」和「偽相關」
雖然關於大資料的介紹和分析都告訴我們,大資料注重的是「相關關係」,而非「因果關係」,但是,如果只注重相關關係,資料量的增加將不可避免的帶來偽相關的現象。 當資料量達到幾十萬之巨之後,只會導向「萬物相聯繫」這一結論。 這時,所選取的變數都會呈現為統計顯著,而這樣的資料分析無疑就失敗了。 因此,即使大資料現在備受推崇,但傳統的抽樣調查和實驗等社會學研究方法也不應該被拋棄,而應該結合使用。
《大資料時代》的譯者周濤也回應了這個觀點:從技術層面上來看,我們的確需要找到因果關係。 一方面,有的關聯如果沒有因果在背後是很難被發現的;另一方面,因果能夠説明我們更好的解釋和分析相關。
大資料離不開對「人性」的理解
大資料的挖掘過程也需要注入思想,這種思想就體現為「人性」。 統計資料不能代替對人性的理解,真正進行跟人相關的大資料採礦的時候一定要關注人性,這個時候的演算法和建模才是有針對性、有意義的。 怎樣在資料中注入人性? 觀察、實驗、調查等傳統的研究方法都是很好的選擇。 比如,約伯斯就經常躲在蘋果體驗店外沒人看得見的地方觀察體驗店裡的人的行為,這是最早期的研究方法,在擁有大資料的今天還在使用是有一定原因的。 一句話:諸如「體會、體驗、直覺、靈機一動、內省」這些看似與大資料無關的東西有可能恰恰就是大資料的核心。
大資料+小應用的趨勢
所謂大資料的小應用,就是把大資料應用到各個獨立領域中去。 大資料運算本身構造了一個擁有更多能力的「新算盤」,擁有這個新算盤不意味著擁有一切,而是有了一個可以在各個領域使用的科學的工具。 怎樣做好大資料的小應用? 有兩個方面:第一,大資料與小資料結合,這個小資料就是基於抽樣調查的資料;第二,來自各個獨立領域的專業知識非常重要,比如以心理學、法學、社會學、行銷學等混合知識作為背景,再去跟資料結合, 就能夠探索出一個更科學的大資料分析和挖掘的方式。
2、關於大資料的產業應用,華大基因的董事長汪建表達了自己的看法:基因研究是一項很少被人瞭解的產業研究,但卻是真正的大資料應用。
怎樣有效的預測疾病、怎樣降低傳染病的發病率,這些都需要依靠于基因研究。 人身體中的細胞數量有10的14次方個,而一個細胞的癌變就可能導致生命的終結。 這一個癌細胞分解為RNA後就是10的9次方,變成蛋白質則是10的19次方,這麼大的資料量足以構成大資料,而基因研究面對的就是如此量級的資料研究和應用。
以對腫瘤細胞的定性、定量研究為例。 首先,要知道腫瘤細胞現在的基因是怎樣的,而當出現一兩個基因變化的時候,細胞又會變成什麼樣。 其次,當眾多腫瘤細胞的基因變化構成了相當量級的資料之後,我們就能通過資料來展現細胞癌變的動態變化過程,從而進一步預測疾病。 這樣的研究如果用在先天性疾病的防治上將更有意義,這樣有出生缺陷的嬰兒會越來越少。 華大在推進的」百萬人基因計畫「,就是一個名符其實的大資料應用。 因此,汪建從基因研究出發,表達了自己對大資料的理解:從大目標出發,踐行大資料,實現大科學,從而將研究成功運用到各個領域中去,形成大產業。
3、關於「新技術給我們的生活帶來了什麼」這個話題,北大哲學系教授吳國盛給出了一個讓我很認同的觀點:技術本身並不是價值中立的,它有著自身的邏輯和屬性,而這就使得我們在使用新技術時,也必須接受新技術的內在邏輯, 而這就將改變我們原有的生活方式。
過去,我們認為技術是中性的,它是人類的使用工具,怎麼使用它取決於人類自己,但事實並非如此。 技術有著自己的自主性、自己的結構,某些技術必定指向某些事情。 比如,互聯網是一種基於民主意識形態的技術配置,線民相對平等的分配資訊,共同分享資訊,所以這樣的技術發源于美國,而不是中國。 而當互聯網進入中國之後,人們除了享受互聯網帶來的便捷高效,還要被迫接受互聯網世界中民主、平等、開放的意識形態,這是根植于互聯網技術中的。 因此,雖然國內建起了互聯網高牆,但翻牆一事也是輕而易舉,這就是互聯網的內在邏輯決定的。
4、關於大資料與社會變革這個不太被提及的話題,來自不同領域的專家們都從各自的領域出發分享了自己的感受。
《大資料時代》的譯者周濤認為,大資料更高級的階段應該是資料的集成與共享,並把集成和共用本身作為一種商業模式。
他舉了一個通過大資料説明全球能源更好的進行配置的例子。 首先,周濤所在的電子科大與電力集團達成合作,通過大量遙感裝置和本地勘探資料瞭解到各個國家的能源供需情況。 其次,通過與氣象局合作獲得氣象資料,包括日照、風速風向、降雨等,從而對太陽能、風能、水能等新能源做到短期預測,並實現能源負載平衡。 而這些資料若再與電力集團的資料進行集成和分享,就能將各項能源更有效的調配使用。
專欄作家安替則談到一個問題:大資料是有階級性的,大資料時代也許是一個新的政治革命誕生的時代。
之前,社科院農發所社會問題研究中心主任于建嶸說過大資料讓每個人變得更加透明,我們生活中的各種行為將通過資料被採集,並且分析出來,因此普通老百姓可以說是沒有秘密的。 然而,這些資料卻不是普通老百姓可以看到或使用的,真正擁有這些資料的是部分企業、機構和政府,普通使用者只是大資料的提供者,這就是階級的產生。
因此,在大資料時代,資料的擁有權是一個關鍵的問題。 這跟資本在資本主義剛誕生時最原始的情況是相似的。 如果我們說物質的匱乏造成資本的流動,資本主義的產生是一些企業崛起,並跟國家分享權力的話,我們也可以說大資料時代恰會濕一個新政治革命誕生的時代。 如果擁有大資料的人們不讓民眾分享大資料的成果,反而用大資料來控制民眾(比如維穩),那也許會造成更大的國內衝突,甚至國際鬥爭。
社會學教授郭于華關心的是社會當中的普通人怎樣面對和使用新技術,那麼新技術是不是會縮小資訊鴻溝和社會鴻溝?
她曾經做過一個研究:新生代農民工怎樣使用資訊技術。 她對研究結論的預判是:新技術將有助於新生代農民工的社會融入、城市融入。 事實上,新技術確實給他們的生活帶來了改變:其一,農民工是一個公共生活缺失的人群,資訊技術給他們相互之間的交流帶來了很多便利;其二,新媒體給了他們表達的管道,這是以往所不曾有的;其三, 他們可以通過新媒體即時調用各種所需要的資訊,更加瞭解這個世界。
但即便如此,我們也不能過分誇大資訊技術對弱勢群體的作用,因為它確實呈現出比較強的馬太效應:強勢著可以更好的、更有利的利用這些新技術,同時他們也會對其他人加以控制。 所以,新技術有沒有可能穿透社會結構的屏障才是關鍵的問題。
其實,像郭于華教授這樣的調研,也是創業者們需要的。 比如「豌豆莢」就曾經派人去東莞的工廠裡做調研,瞭解打工族們對智慧終端機和移動應用的真正需求。 感興趣的人可以點此閱讀調查結果。
關於大資料和新技術,其實除去技術層面的研究和應用,在與歷史、 社會、人文等學科交叉的過程中還將引發很多話題,希望以上這些觀點能給大家帶去一點不一樣的思考。