最近,我回國參加了一些大學的研討會、政府部門的座談會以及企業的培訓活動,主題都是大資料,時下,國內各大報刊雜誌也都在探討這個熱門話題,但我發現,中國社會對「大資料」的概念還存在一些不准確的認識甚至觀念上的誤區, 特別是對大資料在國家層面上的戰略意義估計不足,亟須深化。
從小資料到大資料
「大資料」是一股新的技術浪潮,也是逐步形成的歷史現象,其具體是指隨著資訊存貯量的增多,人類在實踐中逐漸認識到,通過資料的開放、整合和分析,能發現新的知識、創造新的價值,從而為社會帶來「大科技」、「大利潤」、「大智慧」和「 大發展」等新的機遇。 大資料概念的提出,可以追溯到1980年代,但其「資料」二字卻和我們傳統的理解有所不同。
傳統意義上的「資料」,是指「有根據的數位」,但在進入資訊時代之後,「資料」二字的內涵在擴大,它不僅指代「數位」,還統稱一切保存在電腦中的資訊,包括文本、聲音、視頻等。 更重要的是,隨著資訊技術的進步,其數量在爆炸,特別是新媒體出現之後,資料的收集、保存、維護、使用等任務,成為橫跨各個領域的現象和挑戰。
大資料之「大」,並不在於其表面的「大容量」,而在於其潛在的「大價值」。 有很多例子可以證明,由於新工具的出現,我們從以前的小資料當中也能發現大的價值。 例如,美國把二十多年的犯罪資料和交通事故資料對應到同一張地圖上後驚奇地發現,無論是交通事故和犯罪活動的高發地帶,還是兩者的頻發時段,都有高度的重合性。 這引發了美國公路安全部門與司法部門的聯合執勤,通過共治資料「黑點」,交通事故率和犯罪率雙雙降了下來。 再例如,最近有學者將白宮200多年總統洗衣服的記錄電子化,然後進行分析,也得出了一些新的結論。 這些資料,都是地道的小資料。 這說明,小資料只要在縱向上有一定的時間積累,在橫向上有細緻的記錄細微性,再和其他資料整合,就能產生大的價值。 從這個角度來看,大資料也可以理解為針對某個物件在時空兩個維度上的「全息」資料。 這種「全息」,在大資料的時代還表現為「多源」,即有多個源頭在從不同方向對同一個物件進行資料記錄,資料之間互相印證。
另外,從全球資料技術投入的資金分佈來看,傳統的小資料仍然佔據絕對的重頭。 據國際資料集團(IDG)統計,2012年,全球對小資料分析工具的投資為349億美元,而對大資料分析工具Hadoop的投資僅為1.3億美元,不及前者的1%。 IDG的結論是,傳統的小資料軟體滿足了企業和組織95%的需求。 目前行業發展的最新態勢,是「大」、「小」資料分析工具趨於一體化並在向「雲」遷徙。
大資料的戰略意義
大資料的意義,也遠遠不局限于我們當前眾多新聞報導中所津津樂道的「啤酒和尿布」等通過資料採礦、實現精准行銷的故事。 事實上,資料採礦已經不是大資料領域的前沿,取而代之的是機器學習。 資料採礦是指通過特定的演算法對大量的資料進行自動分析,從而揭示資料當中隱藏的歷史規律和未來的發展趨勢,為決策者提供參考。 時下興起的機器學習,憑藉的也是電腦演算法,但和資料採礦相比,其演算法不是固定的,而是帶有自調適參數的,也就是說,它能夠隨著計算、運行次數的增多,即通過給機器「喂取」資料,讓機器像人一樣通過學習逐步自我提高改善, 使挖掘和預測的功能更為準確。 這也是該技術被命名為「機器學習」的原因。 這也是大資料之所以被稱為革命性現象的根本原因,因為從本質上來說,它標誌著我們人類社會在從資訊時代經由知識時代快速向智慧時代邁進。
不妨舉一兩個例子,來說明大資料對社會形態的影響以及對國家戰略的重要性。
今年以來,一股線上教育的浪潮正在席捲美國的教育領域,一種新型的智慧學習平臺正在成為高科技領域創新和投資的重點,其中不少公司已經獲得了初步成功。 如著名的線上教育公司Coursera,已經和普林斯頓、伯克利、杜克、香港理工等全世界30多所大學達成協議,通過其平臺免費開放課程。 如今這些學校的課程可以實現全球幾十萬人同步學習。 分佈在世界各地的學習者不僅可以在同一時間聽取同一位老師的授課,還和在校生一樣,做同樣的作業、接受同樣的評分和考試。 一些學校看到了這種智慧學習平臺的價值和潛力,甚至開始投資興建自己的獨立平臺,2012年5月,哈佛大學與麻省理工學院就宣佈,將投入6000萬美元開發一個類似平臺,並向全世界免費開放。
這種學習平臺的崛起,在美國引起了廣泛的關注和激烈的討論。 其中的原因,是因為該平臺已經不是一個鏡頭、一段視頻那麼簡單,而能對學習者的學習行為自動進行提示、誘導和評價,從而彌補沒有老師面對面交流指導的不足。 例如,通過記錄滑鼠的點擊,電腦能夠記錄你在一張幻燈片上停留的時間,判別你在答錯一道題之後有沒有回頭複習,發現不同的人對不同知識點的不同反應,從而總結出哪些知識點需要重複或強調, 哪種陳述方式或學習工具在哪種情況下最有效等規律。
不難發現,該平臺之所以強大,正是因為大資料。 單個個體學習行為的資料似乎是雜亂無章的,但當資料累積到一定程度時,群體的行為就會在資料上呈現一種秩序和規律。 通過收集、分析大量的資料,就能總結出這種秩序和規律,然後有的放矢,對不同的學習者提供有針對性的説明。 哈佛大學和麻省理工學院之所以向全世界免費開放其學習平臺,目的也是想讓更多的學習者在上面學習,以收集更多的資料,有了資料,它們才能研究世界各國學習者的行為模式,進而打造更好的智慧學習平臺。
資料驅動的智慧時代
前面的例子說明資料正在成為組織的財富和創新的基礎,也證明大資料確實在催生一個更加智慧的社會。 那麼,又該如何理解我們正在邁進的這個智慧型社會呢?
理解這個問題的關鍵在於,無論是資訊、知識還是智慧,在我們這個時代,都是以資料為載體存在的。 資料是對客觀世界的記錄,當我們對資料賦予背景時,它就成為資訊;資訊是知識的來源,當把資訊提煉出規律的時候,它就上升為知識;知識是智慧的基礎,當電腦、網路能夠利用某種知識作出自動判別,採取行動為人類服務的時候, 機器智慧就產生了。 目前,人類記錄周圍世界的範圍正在不斷擴大,過去,我們是決定記錄什麼,現在及將來,我們要進入一個決定不記錄什麼的時代,同時資料分析的能力不斷增強,這都將加速我們邁向智慧時代的步伐。 智慧時代的特點,是無處不在的電腦和網路將像有智商的人一樣為人類工作和服務。 換句話說,越來越多的工作將被電腦或者機器人所代替。 此外,由於精准的計算和預測,整個社會可以像無數個大大小小的齒輪軸承一樣,環環相扣,齒齒吻合,日常管理通過資料更加優化,各種任務、合作可以無縫對接,社會運行的成本可大幅降低。
回到上面的例子,不難想像,這種智慧學習平臺將會給教育行業帶來怎樣的影響。 學校曾經是最重要的教育資源,好的學校更是異常稀缺,由於這種智慧平臺的普及,在不遠的將來,名校將人人可上,也就是說,如果應對得當,中國教育資源匱乏的問題將很快得到有效緩解。 對個人來說,隨時隨地地學習、終身學習都將成為可能,例如,高中生可以嘗試大學的課程,離開了校園的人,也可以登錄線上平臺再和在校生一起聽課。 這些都是教育工作者探討多年、孜孜以求的夢想。 但硬幣的另一面,是中國的教育行業要面對更加激烈的全球化競爭和挑戰。 過去,是學生爭學校;將來,可能是學校在全球範圍中爭奪學生。 發達國家的一流大學會擠壓發展中國家普通大學的生存和發展空間,普通大學該如何來吸引生源? 它們會不會因此衰落? 既然最好的教學視頻等學習資源都可以免費獲得,教師的角色又需不需要調整? 又該如何調整? 這些問題,都是大資料時代催生的重大挑戰。
智慧學習平臺只是大資料大潮在教育領域掀起的一朵浪花。 毫不誇張地說,大資料將影響人類社會發展的方方面面、優化改造每一個行業,其作用難以限量。 我們再以時下另外一個熱門名詞「智慧城市」為例。 近幾年來,國內外都興起了建設智慧城市的浪潮。 據國內智慧城市的領軍公司神州數碼董事局主席郭為介紹:目前,國內已經有60多個城市把建設智慧城市納入了「十二五」規劃,他相信,智慧城市將成為推動中國經濟可持續發展的主動力。 但從一個更高的角度來看,智慧城市的建設問題,其實是一個城市的大資料綜合治理問題:一是要在以前沒有收集資料的地方收集資料,這主要是利用物聯網的技術;二是要讓不同系統的資料有效對接起來,這是系統整合的任務;最後, 還要利用資料視覺化的技術把海量資料中隱藏的知識揭示、展現出來,讓資料中的智慧能夠以一種直觀的形式流向城市的管理者、決策者和市民大眾。 也就是說,資料的收集、整合、分析、展現才是智慧城市的核心,未來的智慧型城市,必將是資料驅動的城市,而大資料則相當於智慧城市的大腦。 郭為還指出,智慧城市的建設,是在用資訊技術解決社會治理中的難題,提高人民的幸福指數,這又證明,大資料的應用和價值,絕對不僅僅是在商業領域這麼簡單。
除了推進社會形態的躍進、加速企業創新,引領新的經濟繁榮,我在《大資料:正在到來的資料革命》一書中還指出,通過開放資料,大資料還可以成為啟動透明政府的利器。 這對當下的中國,現實意義毋庸諱言。 也正是因為以上種種戰略考量,2012年3月,美國聯邦政府宣佈投入鉅資啟動大資料的研發任務,並把大資料提到了和歷史上的互聯網、超級電腦一樣的高度,成為國家戰略。
政府需要做什麼
一是政府機構、行業組織和大型企業要建立專門的資料治理機構來統籌資料治理的工作,例如資料治理委員會、大資料管理局等,資料治理的重點在於資料定義的一致性和資料的品質。 在大資料時代,不同系統之間的資料要進行整合,因此要有統一的元資料定義,這不僅是中國而且是全世界當下都在面臨的挑戰。 各個領域和行業的資料標準制定得好,將會起到事半功倍的效果。 就單個企業而言,要認識到,未來的競爭是知識生產率而不是勞動生產率的競爭,資料分析產生的價值可能比較碎片化,分佈在商業流程的各個環節,資料採礦的投資回報也有不確定性,但企業領導必須有眼光,把資料治理的工作儘快統籌起來, 為增強企業在大資料時代的競爭力做好準備。 此外,資料治理機構的首長應該由組織的高層領導擔任,否則標準無法推進到全域,也改善不了整個行業或組織的情況。
二是開放資料。 資料增值的關鍵在於整合,但自由整合的前提是資料的開放。 開放資料是指將原始的資料及其相關中繼資料以可以下載的電子格式放在互聯網上,讓其他方自由使用。 開放資料和公開資料是兩個不同的概念,公開是資訊層面的,是一條一條的;開放是資料庫層面的,是一片一片的。 開放也不一定代表免費,企業的資料,可以以收費的形式開放。 開放也是有層次的,可以對某個群體、某個組織,也可以對整個社會開放。 在大資料的時代,開放資料的意義,不僅僅是滿足公民的知情權,更在於讓大資料時代最重要的生產資料資料自由地流動起來,以催生創新,推動知識經濟和網路經濟的發展,促進中國的經濟增長由粗放型向精細型轉型升級。
三是鼓勵、扶持基於資料的創新和創業。 政策扶持的傳統方法,可能是以政府為主導建立大資料產業園,對新興企業提供辦公場所等便利條件或者現金支援,這固然有效,但更有效的方式是調動全社會的力量。 例如,撥款支援大資料開源社區、程式師協會等民間組織的建設,通過扶持類似的民間團體,快速推進新技術、新理念在全社會的傳播和普及;再例如,以開放的資料為基礎,舉辦應用程式開發大賽,向全社會徵詢資料使用、創新的意見, 主辦方可以是政府,也可以是企業,拿出一定的資金,獎勵最優秀的應用程式,激發民間蘊藏的創新力量。
四要在全社會弘揚資料文化。 資料文化,是尊重事實、推崇理性、強調精確的文化。 要承認,回望歷史,中國是個數據文化匱乏的國家,就現狀而言,中國資料的公信力弱、品質低,資料定義的一致性差也是不爭的事實。 這方面,政府應該發揮主導作用,首先在公共領域推行資料治國的理念,要認識到,在大資料時代,公共決策最重要的依據將是系統的資料,而不是個人經驗和長官意志,過去深入群眾、實地考察的工作方法雖然仍然有效,但對決策而言, 系統採集的資料、科學分析的結果更為重要。 政府應加大資料治國的輿論宣傳,將資料的知識納入公務員的常規培訓體系,力爭在全社會形成「用資料來說話、用資料來管理、用資料來決策、用資料來創新」的文化氛圍和時代特點。
最後是要圍繞個人資料安全,逐步加強隱私立法。 任何技術都是雙刃劍,大資料也不例外。 如何在推動資料開放的同時有效地保護公民隱私,將是大資料時代的一個重大挑戰。
新年剛剛拉開序幕,希望中國政府相關部門儘快制定和大資料相關的政策,出臺具體的措施,從而抓住歷史的機遇、推動中國社會的發展和進步。 2013年,應該成為中國的大資料年。
(責任編輯:蒙遺善)