2011年,西方有關"大資料"(big data)的理論像旋風一樣席捲知識界,大資料的學術討論接連不斷。 媒體火熱的爆炒,各種危言聳聽的結論,充滿種種迷思,谷歌上竟有13多億條這方面的報導和言論。 我國IT業和新聞界也開展了探討,併發表多篇文章,西方的"資料驅動新聞"(data-driven journalism)、"資料決定話語自由"(allowing the data to speak freely)的說法在國內流行起來。 許多文章聲稱,媒體如不諳熟和掌控大資料洪流,將導致厄運,新聞報導的固有規律也將被顛覆。
一、"大資料時代"的虛構
最早提出"大資料時代"這一概念的是世界知名諮詢公司麥肯錫(MGI)。 麥肯錫在研究報告中指出,我們這個世界的資料量已經爆炸,分析大資料將成為競爭的基礎,支撐新的生產力增長。 資料逐漸成為生產要素,人們對海量資料技術的運用將預示新一波生產率增長和消費者盈餘的提高。
大資料技術帶來社會的上述變化,是否意味一個新時代的開始?大資料時代和資訊時代有根本區別嗎?
"時代"這一概念如果用於社會文明形態,是指在一定時空範圍內由物質生產、政治制度或文化變遷而改變社會的整體面貌,並非可以隨意貼上標籤。 雖然人們可以對某一階段的流行思想或行為打上時代的標記,但那絕不是嚴謹的科學概念,而僅僅是一種習慣稱呼。 有史以來,人類社會出現過石器時代、紅銅時代、青銅時代、鐵器時代、蒸汽時代、電氣時代、資訊時代、蒙昧時代、啟蒙時代、奴隸制時代、封建制時代、資本主義時代、社會主義時代的說法,都是指物質生產方式、政治制度或意識形態的特定狀況。 時代絕不等同于年代,也不是任何新玩意兒一出現、一普及,就打開了一扇新時代的大門。
大資料是資訊技術的子集,僅僅是海量資訊的統計分析方法,不具有物質生產和社會管理徹底變革的性質,因此不具有嶄新的時代特徵。 作為資訊經濟時代的組成部分,大資料沒有超出"以資料流程通推動產品流通,資訊技術和資訊勞動佔有整個經濟巨大比重"的資訊生產形態。 它只是資訊時代的特徵之一,而不是一種新的經濟形態或社會形態,因此大資料時代的概念,是十足的虛構。
國內某IT人士認為:"大資料正把我們變成新的物種。 首先,大資料改變了我們的思維方式,讓我們從因果關係的串聯思維變成了相關關係的並聯思維。 第二,大資料改變了我們的生產方式,物質產品的生產退居次位,資訊產品的加工將成為主要的生產活動。 第三,大資料改變了我們的生活方式,我們的精神世界和物質世界都將構建在大資料之上。 "④這個結論正是把大資料視為一種時代特徵,迷思的味道濃厚。 第一,在地球的溫度、磁場、大氣含氧量和紫外線不變的條件下,我們不可能變成新的物種,即使變也需要上百萬年。 第二,大資料不可能使物質產品的生產退居次位。 我們只能依靠食品、水、房子、衣物、空氣和交通工具等物質來生存,物質產品的生產永遠處于首位,開發大資料技術或加工資訊產品都是為了提高物質產品的生產效率和品質,永遠不具有主導地位。 大資料本身既不能充饑,也不能讓人們安居。
邁爾恩伯格和庫基爾提出更為荒謬的結論:"大資料時代最大的轉變就是,放棄對因果關係的渴求,取而代之的是關注社會的各類關係。 即只要知道'是什麼',而不需要知道'為什麼'。 這就顛覆了千百年來人類的思維慣例,對人類的認知和與世界交流的方式提出了全新的挑戰。 "⑤如果大資料技術使人類只知道"是什麼",就不再有探索客觀規律的要求--尋求"為什麼",那麼大資料只能讓人的認識停留在事物的表面現象,使人類走向無知,以致消弭科學研究,最終導致社會倒退。 這樣,大資料還有什麼"時代"分量呢!? 實際上,"大資料"分析平臺不僅讓人知道"是什麼",而且有時還讓人知道"為什麼",否則就沒有重大的工具性價值,對新聞媒體尤其如此。
二、"大資料"的兩面性
大資料正在成為一股熱潮,不僅是IT業的技術革新,也在不斷衝擊政治、商業、社會和其他科技諸多領域。 對其模式的思考,以及如何應用它,已成為新一輪技術變革的最強音。 但是,大資料技術也有兩面性。
從積極方面說,大資料確實已成為資料王國的主線,是下一步資訊研究的主要物件。 大眾媒體、社交媒體和各個經濟、社會領域如何使用大資料,正確評估大資料的商業價值,建立大資料的新興產業,培育大資料的專業人員,將極大推動社會變革和經濟發展。 哈佛大學社會學教授加里·金說:"這是一場革命,龐大的資料資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程。 "
虛擬世界有取之不盡的資源,資料可以轉化為資產和財富。 據預測,僅美國醫療服務業大資料技術的應用每年創造的價值就在3000億美元左右,全球個人位置服務的最終價值將達到7000多億美元。 每天各種機構、個人和大量傳媒發散的圖片、文檔、視頻和言論雜亂無章、周而復始,人類早已無法掌控。 而這些資訊正是人類活動的真實記錄,大量來自人類的心理層面和社會組織的內幕,通過大資料分析人類完全有可能認識複雜、隱秘的社會和自然現象,使科學研究進入快速發展時期,過去的不可知領域可能將被人類徹底解開謎底。
從消極方面看,大資料技術不是萬能的,不能解決一切問題,它只是決策的一種量化手段。 正確認識事物的是非和利害,遵循人文精神是更為重要的前提。 缺少這個前提,大資料不僅毫無用處,而且能為謬論尋求支援的資料。
有的文章說:"大資料的時代其實是弘揚理性精神的時代...... 美國在這方面就做得好很多,美國政府在各個領域都用資料分析,用資料決策,用資料創新。 "⑦美國確實重視資料,研究社會問題都搞民意測驗或其他實證調查已有八十多年的傳統。 但2008年金融危機已過去5年,它的各種經濟決策沒有使其走出困境;它的情報部門搜集的許多資料都是虛假的(例如伊拉克有大規模殺傷性武器、向國際原子能機構提供虛假情報等);儘管有大量智庫提供佐證與資料, 美國歷屆政府都有重大失誤。 美國蓋洛普民意調查所預測美國大選,通常每次搜集、分析十多萬個數據,但卻多次預測錯誤。 大資料本身不完全等於理性,決策基於資料分析而並非基於經驗和直覺,是一種理性的表現,但更大的理性是人文法則。 即重視人民的普遍要求,維護各民族的尊嚴和文化,尊重人的自由、平等和權利。 不尊重其他民族的歷史和風俗,奉行種族歧視,只知道本國利益而不考慮他國利益,讓美國政府在內外事務中屢屢受挫,給一些國家的老百姓造成不可彌補的傷害(例如多次對外戰爭濫殺平民)。
遵循社會(國際)公德、人道主義、公正與正義、平等互利等友善原則,是分析資料的指導性準則。 資料是有類別的,它真實與否,對全社會是否有利,哪種意見是絕大多數人擁護、贊成的,贊成的人是哪個階層等等,資料本身還存在一定的模糊性。 對社會問題提取大資料,主要瞭解絕大多數人的意見,依據人民是否滿意做出結論,但大資料與人民的數量絕非完全等同。 新聞傳媒反映主流輿論,做出正確而精准的報導,僅僅依賴資料還遠遠不夠。
互聯網、大眾傳媒和社交媒體每天提供的巨量資訊有大量冗余、虛假和有害的內容,其中侵犯他人隱私權、生存權和精神健康權的資訊與圖像大肆氾濫,"價值密度較低"。 人類不但不能把大資料一股腦地當作寶庫,而且要冷靜審視資料的兩面性,拋棄有害和無用的資訊,使資料分析立于價值和法律層面,避免浪費專業人員的時間和精力。
機器儲存和分析難以囊括幾十億兆資料,即使儲存了這些資料,專業人員也無法全部調閱,刪除和忘掉無價值的、不相關的資訊是處理大資料的重要原則。 正如邁爾恩伯格在《刪除:數位時代遺忘的美德》一書中所說,數位技術和全球網路壓倒一切,使我們忘記自己的自然能力,我們必須重新恢復忘記。 人類應採取的措施是" 數位化節制、保護資訊隱私權、建設數位隱私權基礎設施、調整人類的現有認知、打造良性的資訊生態、完全語境化","大資料的取捨之道,就是把有意義的留下來,把無意義的去掉。 只有理解了在大資料中需要的是什麼,以及如何判斷這種需要,才能舉一反三地明白到底為什麼要去掉那些不需要的。 "⑧
三、媒體對"大資料"技術的應對
新聞媒體駕馭大資料是發現新聞的重要途徑。 今後的新聞素材主要來自互聯網、物聯網和社交媒體,新聞資訊雖然源源不斷,但良莠交錯,雲計算的"提純"是選擇新聞事實的主要手段。 每天處理當日"資訊嫩芽"(剛剛出土的新資料),使新聞素材保持最大的新鮮度,加重了媒體工作的緊張程度,稍有怠慢,更多的海量資訊積壓起來,媒體就陷入資料深淵而窒息。
新聞資料不斷產生,呈現分散、蔓延狀態,並夾雜在大量其他資料中,新聞媒體處理資料的鑒別力、精准率是加工資訊的主要效能。 "提純"是認知客觀世界的目標,提取新聞資訊既要全面又要即時,經過一次次提純和淨化,才能達到新聞事實的精准度。 大資料中的新聞素材不是核心資源,僅僅是新聞"毛坯",或稱"二手資源"。 對於本地區新聞,記者的大量實地採訪,獲取第一手材料仍不可缺少,大型媒體仍需向異國、異地派出駐地記者。
在大資料統計中,資料頻現的事件蘊藏著新聞價值,使記者可能發現大新聞。 一個事件、一種現象是不是新聞,值不值得報導,不僅僅根據資料,更重要的是依據新聞價值理論做出判斷。 新聞價值理論是報導規律的總結,大資料排查不僅不能代替它,而且受其指導才能做出正確的認定。 新聞事實的重要、新鮮、有趣或接近性能夠派生出新聞價值,但不是新聞價值本身。 新聞價值要素是指對受眾有用、有益、有效,包括對受眾生活的指導性、對提高受眾思想道德的激勵性和對陶冶受眾性情的娛樂性和快慰感。 這三種新聞價值成為新聞資料分析的"引擎",而不是簡單地以其出現的資料多少確定新聞價值。
讓記者陳述鮮為人知的事件(故事)並尋找新的角度,需要完整的故事,大資料能夠再現這種故事,特別是提供個人化的細節。 資料庫可以轉化成任何形式的新聞寫作,以視覺化的形式對新聞創建清晰的描述。 講故事的元素既可用來說明事件的結果,也可發現記者先前判斷的疏漏或誤導。 一個故事是可驗證的,通過資料來源、資料集、資料品質和資料格式的檢查,發現事件(故事)可能包含的虛假部分,但很難確定哪個具體事實與細節是假的。 只有實地核實事件,才能更真實地把握新聞的真實性,期盼資料提供完全的真實,包含太大的風險。
更為重要的是,大資料對新聞事件有各種判斷和結論,是否都能提供思想、特別是正確的思想,無疑是否定的。 不能武斷地做出結論:大資料是真理的"萬能判斷器"。 新聞媒體不僅需要對大資料提供的思想做出真理判斷,還需要獨立思考,遵循新聞真理性原則寫出獨家評論。 德國學者赫爾曼·麥恩曾說:"尊重真理,對公眾作真實的報導,是新聞界的最高準則。 "⑨新聞的真理性是以真實、客觀為前提的,但不是真實、客觀本身,它是在科學實踐中被驗證的;廝守人類正義和社會真相,反復權衡怎樣報導才能對人類無害。 對此,法國著名記者傑克·凱賽爾強調:"真理問題是相當簡單的,一個新聞記者必須說真話;歪曲事實或背叛真理的記者是不配做這一職業的。 但是,對於真理閉口不言的人,是否應受到譴責呢?為了回答這些問題,我們不僅要求消息準確,我們還要求消息是否登載適宜的問題。 "⑩ 對此,大資料只能提供部分參考,媒體的正確價值觀才是首要的。