閨蜜安琪是百度頭號帥哥李彥宏的粉絲,聽聞李帥哥近期給中央高層講大資料,這位文藝女青年決心搞清楚「大資料」究竟有什麼用處。 本人引經據典多次講解,她仍瞪著無辜的大眼睛忽閃忽閃。 突然,想起前幾日她向我哭訴和婆婆相處的二三事,頓時計上心來,決定開歷史先河,用婆媳關係翻譯一下大資料。
大家看到「大資料」三個字,就會被「大」嚇住,以為必然要超級大超級多才可以,其實大資料是一種思維,這種思維的第一個特徵不是「大」,而是「全」。 比如,我用新浪微博的資料分析2013年前11個月的婆媳關係之「口碑」,輸入關鍵字「婆婆+媳婦」,出來1946905條微博內容。 它對我而言,首要的意義不是這個數位多大,而是這個資料是全的,並非是抽樣或者部分。
通過一定的詞頻統計和分析,龐大的總數據中發現了關於婆媳關係很重要的一些奧秘。 這些奧秘,恰恰是安琪們在和婆婆相處時屢屢踩中的雷區:不當撒嬌;向婆婆訴苦;和婆婆吵架。 這幾大雷區的分析,用的是大資料思維的第二個特徵,就是從資料中尋求各種相關關係。 撒嬌,不是婆媳關係不良的主要原因,但是會引發婆媳關係微妙的變化。 這種相關關係的邏輯是,一個變強另外一個就會變強,但是一個變弱,另外一個幾乎不會有什麼變化。 這和前後密切關聯的因果關係有巨大的不同。
國外大資料研究的先河之作《大資料時代》中,作者維克托·邁爾·舍恩伯格的最具洞見之處就是,他明確指出大資料時代最大的轉變就是:放棄對因果關係的渴求,取而代之關注相關關係。 也就是說只要知道「是什麼」,而不需要知道「為什麼」,這就顛覆了長久以來人類的思維慣例。
另外,通過資料洞察有一個有趣的發現。 2013年前11個月,提及「婆婆+房子」的微博僅有785條,但是,提及「丈母娘+房子」的微博有463691條。
由此可見,婆媳關係中的房子並非是關注焦點,同時可預見丈母娘對中國房地產市場有著潛在的推動作用,遠甚于婆婆。 與之印證的是,安徽一家房地產商曾打出口號:「你可以不買房,除非你擺平丈母娘」。 在這裡,講述的是大資料思維的另外一個特徵,就是可預見性。 大資料的預測分析,可謂是大資料的最高境界,也是眾多資料分析人士的終極夢想。
維克托指出,世界的本質是資料。 就像安琪可以依據大資料的分析結果改善自己的婆媳關係。 在大資料時代下,經濟學、政治學、社會學和許多科學門類都有可能發生巨大甚至本質的變化,進而影響人類的價值體系、知識體系和生活方式。
遺憾的是,這兩年來大資料的概念炙手可熱,但是,真正的大資料是怎麼回事,很多人心裡都含糊。 2013年9月,著名資訊技術分析公司Gartner發佈《2013年大資料普及程度背後的炒作》報告,指出2013年30%的企業已開始大資料工作,另外34%的企業計畫在兩年內開始。 但這些企業大多告訴調查者,不知道自己在做什麼,也不知道為什麼要做大資料工作。 根據這一報告,半數以上企業不知道如何從資料中獲取價值;三分之一的企業缺乏大資料處理能力;甚至還有超過五分之一的公司不知大資料究竟為何物。
另有研究發現,整體來看,國內大資料的發展要落後國外一年半左右,且泡沫更多。 目前,國內的一些大資料企業發展與國外大資料企業早期的創業階段相似,在硬技術方面和資料獲取方面比較欠缺。 國內的大資料企業多集中在行業應用分析方向,主要為決策諮詢、搜索推薦、預測、視覺化、圖像識別、電子商務等。 同時國內大資料企業還有一個隱憂,就是資料來源比較單一,真正的創造性資料開發管道非常少。
據前瞻產業研究院《2014-2018年中國大資料產業發展前景與投資戰略規劃分析報告》中的預測,2012年中國大資料產業市場規模為4.5億元,初步估算,2013年將達到8億元。 未來幾年大資料超市將繼續以超過100%的年均複合增長率增長,到2016年,大資料將成為百億元級的產業。
如果大資料真的即將開始一個新的時代,那麼知識普及、資料來源開發、技術共用、人才培養等方面,都需要國家從戰略層面去支援。 9月30日,百度公司CEO李彥宏向中央高層宣講大資料。 他認為大資料在兩方面最有價值,一是促進資訊消費,加快經濟轉型升級;二是關注社會民生,帶動社會管理創新。 李帥哥宣講大資料,是一個很好的苗頭。 但是,大資料時代還在漸漸形成中,那未來的輝煌,我們還要靜候。