科學理性撥開大資料的神秘外衣
——關於大資料的幾個重要觀點
大資料產業鏈基本架構(資料來源:上海科學技術情報研究所整理)
大資料概念的升溫,引來了很多爭議。 有人稱之為「新瓶裝舊酒」,也有人認為大資料的機遇被過於誇大。 其實,這些都與沒有真正理解大資料的本質有關。 任何事物的發展都有其客觀規律,大資料並非是「石頭裡蹦出來的孫悟空」,它也有自己的「親生父母」——電腦科學和資料科學。 正是由於兩者的融合,以及生命科學、地理科學甚至社會科學等各領域資料化程度的加深,才使得大資料擁有不同尋常的「基因」。 而且,隨著互聯網產業的成熟,物聯網、雲計算概念的落地,資料驅動創新觀念的深入人心,大資料的用武之地將更為廣泛,所能帶來的變革潛力也將不可限量。
關於大資料,有如下幾個重要判斷和觀點:
——大資料思維源于資料採礦(Data Mining)又高於資料採礦。 也可以說,資料採礦是大資料的「近親」。 資料採礦借助電腦從海量資料中發現隱含的知識和規律,是一門融合了電腦、統計等領域知識的交叉學科,其核心的人工智慧、機器學習、模式識別等理論,在上世紀90年代推行知識管理時已有顯著進展。 從本質上看,大資料帶來的「思維大變革」以及一些資料驅動類的商業智慧(Business Intelligence)模式創新,都是資料採礦理論的延伸,表達為「資料採礦相對於數理統計帶來的思維變革」或許更加準確。 比如,因果關係是數理統計中的重要內容,基於完善的數學理論,代表是回歸模型;而相關關係是資料採礦中的重要內容,基於強大的機器運算能力,代表是神經網路、決策樹演算法, 這使得人們不需要瞭解背後複雜的因果邏輯也可以獲得良好的分析和預測結果。 但是,資料採礦通常面向結構化資料。 大資料則還涉及資料的採集、提取、轉化、存儲等,且必然要面對非結構化資料。
——大資料突破主要來自技術上的革新。 表現在對多樣(Variety)、海量(Volume)、快速(Velocity)特徵的「適應」和「運用」上。 一是存儲資料從結構化向半結構化、非結構化拓展,如基於Web異構環境下的網頁、文檔、報表、多媒體等,導致了一批基於非結構化資料的專有挖掘演算法的產生和發展。 二是資料庫從關聯式向非關聯式、分散式拓展,關聯式資料庫是以行和列的形式組織起來的結構化資料表,如Excel表格,缺點在於存儲容量小、資料擴充性和多樣性差,而新的非關聯式、分散式資料庫可以彌補上述不足。 三是資料處理從靜態向即時交互拓展,新的大規模分散式並行資料處理技術能夠即時處理社交媒體和物聯網應用產生的大量交互資料,有效應對多樣和海量帶來的複雜度和時效性要求。
——技術革新直接促成了價值(Value)的實現。 得益于上述技術,資料採礦理論獲得了呈幾何倍數增長的資料量和處理能力,原本很多無法驗證的設想和方法得以實現。 比如,傳統商業智慧(BI)分析有一個「集中」步驟,即在分析前需要對大量資料幫浦和集中化,形成一個完整的資料倉儲,這個步驟往往成為BI分析全過程的能力瓶頸。 而基於大資料分散式技術的BI分析無需「集中」,大大提升了敏捷度和智慧水準,從而推動機器學習、語義處理等領域發生重大突破,直接促成了Mahout機器學習演算法集、Siri語音助手等一批商用化產品的問世。
—— 價值實現的潛力主要體現在資料開放戰略和資料驅動范式上。 在戰略層面,資料處理從封閉、中斷點、靜態向開放、海量、即時的轉變,引發了社區、眾包、網格等新業態、新模式蓬勃發展,在此基礎上將推動機構資料開放和公眾共用運動的興起。 在研究范式層面,科學研究出現從推理演繹驅動向資料驅動拓展的苗頭,如生物基因與健康等研發密集型產業開始向資料研究科學拓展,許多傳統的科學研究如歷史、文學等也開始嘗試運用資料分析技術。 但上述重大變革目前尚未規模化實現,大資料現有技術水準的主要受益者仍然是互聯網產業和各類基於互聯網的商業模式。 在資訊基礎設施普及率、社會開放性以及與網路智慧交互技術的結合度沒有達到一定能級時,大資料的應用是有限的,達不到面向社會的「無所不能」。
——互聯網企業是當前大資料價值實現的推動者和直接受益者。 由於互聯網的發展在帶動大資料概念興起的過程中起到了重要作用,因此多家知名互聯網企業順勢掌握了大資料相關核心技術,推出了關鍵產品和服務。 如谷歌公司研發了大資料「三核心」——檔案系統(Google File System)、處理演算法(MapReduce)和分散式資料庫(BigTable),打造了全球大資料開發的主流框架和范式。 雅虎基於谷歌的演算法思想,改進了Hadoop開源框架,向廣大企業和創業者開放,推動產業生態系統的不斷壯大;亞馬遜、臉譜、推特等企業在此框架基礎上開發各類功能性工具,並以資料為消費產品改善使用者體驗;而微軟、 IBM等傳統IT企業在產業鏈上更多關注下游應用,為各行業客戶提供系統解決方案。 這些企業不僅可以從新技術產品和服務中獲得可觀的收入,還可以從佔有的資料資源中獲利。
——大資料有助於進一步明晰雲計算的價值。 在雲計算概念剛被提出的幾年裡,許多政企行業使用者對其應用價值一直存在疑慮。 而隨著大資料的異軍突起,雲計算的價值又一次受到公眾的關注。 由於雲計算説明解決了大資料無法進行抓取、管理和處理的問題,給予了它不同以往的存儲和計算能力,使得結果獲取更快速、分析更智慧。 可以預見,在未來雲計算將成為大資料應用分析最活躍的舞臺。 同樣,大資料為雲計算大規模與分散式的計算能力提供了應用的空間,解決了傳統電腦無法解決的問題,從而進一步明晰了雲計算的價值。
——需警惕大資料至上主義。 大資料支援者的一個重要論斷是:基於全量,大資料分析的準確性將超越傳統數理統計,因果關係將為相關關係所取代。 而事實並非如此樂觀,一方面,經歷四百年發展的傳統數理統計沒有過時,仍然在經濟社會各方面發揮著重要作用。 比如,抽樣是一門古老且成熟的統計方法,如果目標明確、方法科學,其在絕大多數情況下得出結論的正確性,並不遜于全量資料。 客觀上看,全量的價值更多體現在一些傳統數理統計基本假設可能失效之處,如互聯網「長尾」現象的出現,導致正態分佈、帕累托法則在個別領域不再適用,此時需要依靠全量資料尋求規律。 另一方面,全量伴生的「噪音」有時會影響精准度。 例如,被譽為大資料傑出案例的「谷歌流感趨勢」近期陷入低谷,錯誤率高達90%以上,不能預測甲型H1N1等重大疫情。 它的核心邏輯是:搜索「流感」的人數與實際患症的人數之間存在相關性,而事實上,即便去醫院看流感的人都有80%—90%實際沒有得流感,表面的網路搜索行為與可靠的資訊來源還存在較大差距以及「去噪」過程。 很多專家認為,就目前而言,相關關係還不足以替代因果關係,而只是作為其補充。