來源:互聯網
上載者:User
關鍵字
大資料
大資料
就是
大資料
就是
我們
大資料
就是
我們
人們
大資料
就是
我們
人們
如果
大資料已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。 人們對於海量資料的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。
2013年10月28日,三名新疆籍恐怖分子駕吉普車衝撞天安門,恐怖分子當場全部燒死,可是警方僅用了10多個小時就全部抓住了5名同夥。 警方如何快速鎖定嫌疑犯,這是國家秘密,但是從媒體披露的蛛絲馬跡中,我們還是能發現無處不在的監控視頻和電信追蹤起到了至關重要的作用。 從天安門廣場追溯過去的海量資訊,通過一些模糊比對方法能快速地過濾資訊,最後找出恐怖活動與嫌疑犯的相關性——這就是大資料的威力。
沒有最大,只有更大
維琪百科這樣定義大資料(Big data):大資料或巨量資料、海量資料、大資料,指的是所涉及的資料量規模巨大,以至於無法在合理時間內通過人工截取、管理、處理並整理成為人類所能解讀的資訊。 我們舉個例子,IBM團隊為了讓電腦戰勝國際象棋冠軍卡斯帕羅夫,收集了將近100年來的60萬盤高手的棋譜,這個就是大資料,人腦是無法記憶所有這些棋譜並加以有效利用的。 1997年,國際象棋特級大師卡斯帕羅夫在《危險邊緣》(jeopardy)節目中首次輸給了IBM深藍電腦,成為轟動一時的新聞。 電腦能戰勝人腦,秘訣就在於存儲在深藍電腦內的棋譜大資料。 科學家們研製了人工智慧博弈軟體,能從大量的棋譜中找出最合適的步驟,這是人腦所無法企及的。
有人把大資料的特徵歸納為4V:Volume(量大)、Variety(多樣)、Velocity(高速)、Value(價值密度低)。 讓我們來回顧一下剛剛過去的「雙十一」節,那天淘寶商城達成了1.88億筆交易,總交易額達創紀錄的350.19億元。 這些交易記錄就形成了那天瘋狂網購的大資料。
這樣的記錄首先體現在資料量巨大上。 我們知道一部高清電影的容量大約有1GB,而1024個GB就是一個TB,再1024個TB就是一個PB,而大資料往往達到PB數量級,可見資料量大得無法想像。 其次,就是資料的多樣性,交易的品種、賣家的資訊、買家的資訊、快遞的資訊、支付的資訊,構成了一個行業多樣化的資料鏈。 第三,就是資料產生的速度極快,檢索結果的速度也要求快,要在幾百萬件商品中查找出一類商品,其檢索速度只需要1秒,這是傳統技術無法達到的。 最後,需要說明的是,大資料的內容雖然真實、完整地反映了客觀世界,但它的價值密度很低,如果不去研究挖掘,大資料是不會自動產生有用結果的。 比如,在街景的海量監控視頻中,犯罪分子留下的蹤影也許只有幾秒鐘。
大資料時代
英國的大資料權威專家維克托·邁爾-舍恩伯格(Viktor Mayer-Sch?nberger)寫過一本書,書名就叫《大資料時代》,書中首次斷言人類已經無可逆轉地跨入了大資料時代。 據他估算,人類在2000年時大約只有四分之一的資訊實現了數位化,其他的四分之三的資訊仍然以報紙、書籍、膠片、磁帶等形式存在,但是到了2007年人類存儲的資料超過了300艾位元組,相當於3000億GB的資訊量。 大資料時代在生活、工作和思維上給人們帶來了巨大變革。
首先,是資料的形式由原來的關聯式資料(如試算表形式)更多地表現為非關聯式資料(如使用者評論、圖片等);資料存儲方式也由原來集中式存儲變為分散式存儲,大型資料不得不存儲在不同地方的存儲伺服器中,通過網路進行互聯訪問, 構成所謂的雲存儲。
其次,是對資料處理的方式發生了根本變化,人們已無法只用一台電腦處理資料,必須依賴網路後面的雲平臺,進行雲計算,才能有效處理大資料。 在對大資料處理上,我們可以看到三個有趣的變化:在小資料時代,人們限於獲取資料的困難,只能採用隨機抽樣的方式獲取資料樣本,然後根據樣本資料進行分析預測。 一旦樣本出現偏差,那推匯出的結果就會產生很大的誤差。
而在大資料時代,我們能輕易地得到資料全體,而不再需要樣本。 譬如,阿裡巴巴能得到所有買家的資料,它能輕易地統計「光棍節」那天的交易金額,算出哪個地區交易最活躍,可以通過媒體即時轉播交易盛況。 這就是大資料的全資料模式,資料處理的範圍是全體,而不再是樣本。 第二個變化,是不再一味地追求資料的精確性。 由於大資料的多樣性、豐富性、動態性(在處理的同時,資料還在大量產生),強調資料的精確性是做不到的,也沒有必要。 紛繁的資料會混雜在一起,看起來好像全無用處,甚至有些還是錯誤的資料,但是沒有關系,這就是大資料的本性,看似無關無用的一堆資料卻蘊含著無限商機。
想一想,當人們在百度上比以往更多地搜索「感冒」「發熱」等關鍵字時,往往意味著某地將要爆發流感,甚至還能預測是什麼流感,這就是大資料的威力。 第三個變化,是關注資料之間的相關性,而不是因果關係。 比方說,通過挖掘天貓商城的交易資料,發現購買德龍咖啡機的買家,會有很高的比例購買寵物糧食,那商家會不失時機地推薦你購買皇家狗糧。 咖啡機與狗糧沒有因果關係,但卻有內在的相關性。 資料之間的相關性,就是大資料所蘊含的價值,也是商家追求的商機。 大資料的相關性,告訴我們在面對錯綜繁雜的大資料時,我們不需要去研究「為什麼」,只要知道「是什麼」就足夠了。
最後,大資料時代將催生一個資料採礦行業,出現一批數位科學家。 簡單地說,資料採礦就是從收集的資料中用一定的演算法分析計算,得到我們所需要資訊和知識的過程。 傳統的統計分析是將資料按已知的類別進行分類統計,然後尋找有價值的資料。 如果給定的分類是不合理的或是錯誤的,那統計出來的結果就不會產生最好的效果。 而資料採礦採用的是一種叫「聚類」的方法,它事先不需要人工分類,而是由演算法分析資料的屬性,將資料自動聚集成「類」,使「類」間的相似性儘量小,「類」內的相似性儘量大。 比方說,保險業務涵蓋各類人群、各種職業,所以設計某個險種潛在的客戶目標群,需要對大量資料進行挖掘,才能找出不同的客戶群和重要係數,這不是事先人為設定的。 要「讓資料自己說話」,這樣才能因地制宜地制訂行銷計畫,科學測算盈虧平衡,為保險企業創造更多利潤。
大資料的紅利
有人斷言,資料將成為人類的重要資產,成為比石油和黃金更為重要的可重複開發使用的資源。 筆者也認同這個觀點。 最近,媒體報導「三馬」聯手買保險新聞,這是一個攢取大資料紅利的例子。 「三馬」利用阿裡巴巴、騰訊和平安保險三家公司掌握大資料的優勢,成立了網路保險公司——眾安線上,這是具里程碑的互聯網金融創新,旨在利用大資料對保險消費者進行準確定位和精准行銷,瞄準的主要是80後、90後的消費者。 可見,利用大資料技術將是未來各保險公司搶奪市場非常關鍵的一環。
另一個有益的應用將是利用大資料來防範電信詐騙。 電信詐騙是當今社會的一大頑疾,如果電信、銀行、互聯網、公安等各方擯棄利益糾結,共用各自的大資料,那麼最大限度地杜絕電信詐騙是完全可能的。 我們只要分析挖掘各方的大資料,找出電信詐騙相關性的資料因數,然後建立動態監控模型,那麼一旦相關資料出現,公安就能根據資料鏈快速找到詐騙犯。
炒股的高手都想賺取大資料概念股的紅利。 大資料的紅利在哪裡? 存在於大資料的擁有者、大資料技術公司和大資料價值挖掘者(也就是提供思維的資料科學家)。 馬雲說過:未來的世界是資料的世界。 大資料時代已經撼動了世界的方方面面,從工業、農業、商業、科技到政府、醫療、教育、文化以及社會的其他各個領域,人們的生活日益被資料所改變。 可以說,大資料是一種比石油、黃金還要珍貴的資源,誰掌握了足夠多的資料,誰就搶佔了制高點,增強了競爭力,也就掌握了未來。
大資料的負面清單
大資料無疑是一個資源寶庫,它蘊藏著巨大的價值,有待人們去挖掘。 但是,就像硬幣有兩面一樣,大資料也有其負面清單,我把它歸結為數據壟斷、侵犯隱私和資料誤導三個主要方面。
資料壟斷是大資料的最大隱患。 我們知道,大資料技術使得人類的態度、情緒、行為等以往認為難以測量的方面,都可以變為資料來進行分析和預測。 一旦大資料掌握在少數企業或政府部門之間,他們為了維護自己的利益而拒絕資訊流動,這不僅浪費了資料資源,而且會阻礙資料創新,形成資料壟斷。 比方說,全國的房產資料如果能共用,這對國家瞭解房產的整體、真實情況非常有益,也能輕易挖出貪污腐敗的嫌疑分子,但是這些資料往往掌握在地方部門之間,不能形成有效共用。
侵犯隱私是大資料的影子,只有將大資料置於法律的陽光下才能驅除。 被斯諾登揭露的美國「棱鏡計畫」,就是利用訪問大資料的能力,監控互聯網、電信等九大營運商的資料庫,從中挖掘「有用資訊」,達到收集情報、秘密監控的目的。 電話、電郵、文檔、視頻、照片、聊天記錄等幾乎所有的資訊都暴露在「棱鏡」之下,大資料為侵犯隱私開了方便之門。 如果不對大資料的獲取、訪問、共用加以法律約束,那麼個人隱私將不復存在。
美國最近有一款照片分享軟體(Snapchat)應用很火,因為它能滿足年輕人保護隱私的需要。 在Snapchat中如果你分享一張照片給你的朋友,它將在對方閱讀後馬上自動刪除,同時禁止在閱讀時螢幕截圖,具有「閱後即焚」的功效。 因此,Snapchat也適合於發送商業機密或者敏感資訊,焚毀後的照片不會在網上留下痕跡。 這是人們反抗大資料的一個案例。 但是在日常生活中,人們無法避開使用電信、互聯網、微博、微信、QQ等服務,透過這些服務所記錄的大資料,幾乎透明無遺地顯露了一個人的社交關系網。
資料誤導是大資料風險的一個側面,如果不對資料採礦的結果加以評估驗證,那利用大資料可能帶來錯誤結果。 雖然大資料容忍有資料差錯,但如何有人主動地弄「髒」資料,整個大資料就會被人為扭曲,加進了虛假資訊。 比如,我們在上淘寶網時,總是非常關注賣家的信用等級,但是總有一些賣家弄虛作假,通過自賣自買等虛構交易,來「攢評分」「刷信用」,有的賣家甚至雇人來「刷鑽衝冠」。 如果一個皇冠賣家的信用是靠「髒資料」獲取的,那買家的上當受騙就是大概率事件。
大資料的紅利目前只能被有權有勢的大企業或政府部門瓜分,這對整個社會的健康、和諧發展是不利的。 我們呼籲儘快立法,建立大資料共用平臺,打破資料壟斷,消除資料鴻溝,保護個人隱私,讓大資料成為新經濟最重要的生產要素,讓普通人也能分享大資料的紅利。
(責任編輯:蒙遺善)