拍案而起,十問大資料

來源:互聯網
上載者:User

  

在互聯網時代,大資料炙手可熱,許多人言必稱大資料,但能夠真正說清大資料為何物的人並不多,更遑論如何借助大資料採礦出巨大的商業價值。 究竟如何定義大資料?大資料有哪些特徵?本文旨在厘清大資料概念,闡明大資料應用方式及探究未來大資料發展之道。

Q1:大資料是商業炒作嗎?

業界給大資料的定義是4 個「V」:體量大(Volume)、種類多(Variety)、速度快(Velocity) 和真實性高(Veracity)。 但這個定義其實並未抓住大資料本質。 如果僅僅看這幾個維度,大資料就是一種炒作,因為它們只是表面現象。

大資料的本質應該是如何為企業帶來一種更新更好的商業運作模式,而大資料應用的成功,也是依靠決策者提出好的商業問題及與其相關的商業模式。 這些商業問題可以非常簡單,但問題背後必須有一系列相關的商業模式。

比如,如何運用智慧手機應用商城的資料, 來提高對使用者APP 推薦的精度? 隨後,利用應用商城的大資料,可以產生上百萬維的資料表,進而建立可靠準確的推薦模型,使得使用者體驗水準大幅提升。

大資料應用成功的關鍵也正取決於是否有一個明確的商業(或科學)目的,商業模式的定義是其前提條件。

Q2:資料越多越有用?

首先,如果收集大資料的目的是建立一個對位置資料的預測模型,那麼,得到這一模型的訓練資料一定要包含所需的資訊。 但問題恰恰是,事前並不知道哪些特徵是重要的,因此,需要把儘量多的資料整合起來,讓機器去尋找。

然而,這個問題為什麼不能去諮詢該領域內的專家們呢?事實證明,專家們雖然會自己解決問題,但大都說不清他們是如何解決這些問題的。 這也就是為什麼在大資料應用中,專家的作用更多體現在説明連接、聚合儘量多的資料上。

除此之外,要建立一個好的預測模型, 用來訓練模型的資料總量也要足夠多。 如果歷史資料少於一定規模,就會出現所謂「過擬合」(為了得到一致假設而使假設變得過度複雜)現象。 例如,如果一個服裝品牌按照某一個模特的身材來設計,衣服很可能做得偏瘦,以至於絕大多數其他消費者無法使用。 這種「過擬合」現象在建立大資料下的預測模型時也會發生。

那麼,資料的總量越大,是不是預測模型需要學習的時間就一定越長呢?答案是否定的。 研究成果表明,在一定條件下, 當資料變得越大,實際所需要的訓練時間反而越短。 為什麼會這樣呢?可以想像:如果一個學生在學習某種概念時,只有少數習題,那麼這個學生想透徹學會這個概念,就需要把每一個習題翻來覆去地看, 加以擴展,這樣學習的過程會比較慢。 相反,如果他有許多不同類的習題,只需要把每一個習題過一遍,即可應付未來的大部分情況。 因此,習題多的學生,學到同樣水準的時間反而會短。

Q3:人工智慧將超過人類大腦?

經過幾十年的探索,可以相信:機器的智慧只能從針對大資料的學習中得來,而大資料只能從人與人的交互、人與機器的交互中得來。 如果想要這些交互產生足夠多的資料,就一定要讓這些交互為人類提供有用的服務。

如今,什麼資料最為充分?充分的資料首先是最容易被記錄的那一部分,比如語音、圖像、文字等。 能不能直接獲取人類大腦活動資訊,並以此來充實我們的智慧呢?當今的這種技術(如磁共振腦圖成像技術) 還不夠精確,因此,通過學習得到的系統雖然在單方面可以超過人類大腦(如IBMWatson),但就通用性而言, 現階段的人工智慧比起人類大腦還差得很遠!

有沒有可能在不久之後的某天,具有人工智慧的機器人成為人類的敵人呢?這是有可能的。 但前提是:這些機器人的領袖一定是人類。

Q4:使用者隱私問題如何解決?

隱私問題的出現其實比大資料要早, 但隱私真正成為家喻戶曉的議題,卻是在大資料成為熱點之後。 從斯諾登揭秘到蘋果資料上傳,隨著越來越多媒體的爆料,大家對隱私的關心程度也與日俱增。 隱私問題的最大矛盾在於,一方面,資料被嚴嚴實實地包起來,另一方面,它又要被運用來發現有用的東西,不得不將之開放和上傳。

目前看來,資料隱私問題有三個考慮: 1. 技術;2. 使用者利益;3. 社會接受程度。

從技術上來說,以前有關資料的解決方式大都是把資料從終端遷移到計算端(如計算中心),得出結果後再把結果送到終端。 這種方式無疑會引發隱私問題,因為一旦資料離開使用者的個人終端,就無從保證誰將有權利接觸資料,資料的隱私也就無從保護了。

要保護隱私,一種新的模式是「計算隨著資料走」,也就是利用終端自身的強大計算功能,在終端算好一個結果(如一個預測模型,即本地模型),再把這個模型與某一個通用模型加以整合。 這種模式無疑會引入更多計算量與複雜性,目前還屬於前沿研究領域。 這種方法就像是有人要買股票,但又不想別人知道他自己的需求,唯讀取網上有關股票的資訊,與自己知道的需求結合起來,做出買賣決策。 只要每個人足夠聰明,又有足夠的計算能力,這樣的系統就會最大程度地保護每個人的隱私。

另一種做法是,仍把資料傳輸到計算中心,但在傳輸之前,將資料加以改變, 使其中的關鍵隱私資訊在傳輸和計算中被隱藏起來,讓人無法反推原始的敏感性資料(如使用者性別、住址等),同時又保證計算結果的真實性和可用性。 實際上,一個更難的問題是:無論如何隱藏和加密原始資料,使用者心裡總有不放心的一點陰影。 由於這個陰影的存在,使用者永遠不會相信一個單純靠技術的隱私保護計劃。 可以預見,在未來,隱私問題的解決程度將成為使用者選取產品的重要依據。

可是,大資料已經來到人們身邊。 今天社會上的每個人,實際上都是大資料的消費者。 同時,又在不斷暴露自己的隱私。 比如,使用者使用免費的電子郵件帳戶,即便知道這些服務商在挖掘我們的郵件資訊;使用者使用搜尋引擎詢問各種問題,儘管這令我們的問題被記錄在案。 既然如此,為何使用者在使用大資料服務的時候,依舊樂此不疲呢?答案在於使用者利益與隱私暴露的費用比:如果使用者得到的利益大於個人資料洩露的價值,使用者還是會同意接受並分享這些資料的。 因此,隱私問題的關鍵是,如何讓系統和使用者在矛盾中尋找到一個平衡點。

最後,隨著技術的發展,社會對於資料分享的接受程度也會改變。 上一代人所不能接受的事物,到下一代可能就不是大問題了。 Facebook 就是個例子: 實名制允許人們訪問他人的主頁,並看到許多資訊,這一點在最開始引起不小的質疑,但最後,廣大青少年熱烈地擁抱這一新技術,並紛紛加入其中。

Q5:運營商管道vs 互聯網使用者大資料?

互聯網與電信運營商的關係,可以用一個例子來理解:馬路上形形色色的車輛可以視為互聯網,車上所裝的貨物、乘客及運輸系統可以視為互聯網的資料和各種應用,而車輛所走的高速公路類似于運營商提供的管道。 對於互聯網而言,它更關心乘客和貨物,關心如何把他們安全送到目的地。 但從運營商角度而言,它更關心的是道路是否通暢。 從這一點來說,互聯網的資料有關乘客和貨物,運營商的資料是車流量、道路擁塞的程度。 所以,互聯網的資料是終端使用者資料,運營商的資料是關於資料的資料。

什麼是關於資料的資料呢?以照片為例,圖元點就是資料,而照片大小、類型、照片檔的產生時間與地點,就是資料的資料。

資料的資料在電信行業意義重大。 但其前提是:資源無論到何時都是有限的。 管道再寬,也是有限的。 那麼,從運營商的角度來說,他們希望知道什麼呢?還是以車和路來比喻:

你想知道如何為一些重要的常客開闢一條快速通道嗎?那就首先要知道哪些是重要的常客。 只有知道了常客的群體,常客的特徵,才能有效抓取到他們。

你想知道哪些重要車輛所屬的公司在受競爭對手的高速公路公司吸引,正考慮換路嗎?那就要分析這些車輛公司的痛點何在。

你想知道哪些路段需要特別維護,並派一些常駐維護車輛駐守嗎?那就需要分析哪些是容易受損的路段。

這些對資料分析的需求隨著運營技術的前進而提升。 在5G 的場景下,運營商需要給大眾提供更密集、更快、更個人化的電信服務,由此也就知道使用者的使用規律、痛點、服務軟肋在哪裡。 一個如影隨形的高端服務並非由無數服務員在所有使用者可能出現的地方等待,而是由一個聰明的服務員在使用者需要的時候及時出現。 未來的網路技術,如軟體定義網路(SDN), 就更需要大資料的支援:SDN 的大腦可以根據網路大資料的深度挖掘所產生的修改,而變得越來越聰明。

  

Q6:大資料和雲計算、物聯網是什麼關係?

如果把整個IT 流程看做一棵樹的話, 物聯網就是這棵樹的葉子和枝幹。 如果感應器網路所感知的資訊是有關「人」的資訊,比如使用者在網上購買商品的資訊,或與人的移動行為和動機相關的資訊,那麼它就會有極大的商業價值,對這種資料的需求也會劇增。 人的心理因素是世上最複雜的,對應著某種動機和意識的行為、動作也千差萬別。 人與人的關係組成了無窮多的維度,而大資料正是這些維度疊加而成的。 這些資料不僅包括人本身的語言、文字、動作、視覺資料,更是人與人之間關係的資料。 凡是與人相關的活動資料,都是最值得收集的資料,與之相關的需求則永遠存在。

所以說,關於人的資料才是大資料。 物聯網只有考慮到人這種廣義的「物」,才最有價值。 否則,物聯網所傳輸的資料無論從複雜度還是商業目的而言,都極為有限。

大資料和雲計算的關係則在於,大資料的成功應用除了「大」,還有三個必要條件:即時線上、對事件的全面描述以及產生差異化的效果。 雲計算使得這三個必要條件得以滿足。

首先,雲計算使人們可以隨時隨地使用存儲和計算,使大量資料得以及時被採集和分析。 手機上APP 應用雲的服務就是一個雲計算的例子。 由於存儲和計算成本的降低,雲計算起到了即時線上的作用, 從而使得更多的人願意使用雲服務,大資料的雪球由此可以滾動起來。

雲計算的另一個好處是可以實現大規模的資料整合。 當今世界並不是為大資料應用準備的,因為大量資料集散落在不同地方,以不同方式存放,其擁有者也是不同的人。 在雲計算條件下,很多大規模資料整合的問題都會得到解決。 當大家資料放在一起時,資料整合的門檻會大幅降低,因此,大資料也會像核子物理的聚變一樣, 產生成倍的效果。

  

Q7:有了大資料,我們還需要專家嗎?

在大資料時代,專家的一部分作用確實可以被大資料應用所取代。 例如,推薦金融產品時,專家需要將特定金融產品推薦給特定客戶。 這些客戶有以下特點:接受這一推薦的可能性很高,同時,對其他客戶的影響力也很強,在接受這一產品的同時,他們很有可能會把產品消息向親朋好友傳播。 這一重要的市場工作過去是由專業的市場部門經理來完成的。 然而在大資料應用中,通過對大資料的整合分析得出的大規模推薦模型的推薦效果,是市場部專家的二十倍以上。

這個例子說明:首先,在傳統商業領域,大資料的功效確實能夠取代並超越人的作用。 在過去的實踐中,市場專家最多能夠判別十幾維的資料,而資料採礦模型卻可以處理幾萬維甚至幾千萬維的資料;其次,取得這麼好的效果需要做許多前期工作,如搭建資料平臺、整合不同資料、建立分析預測模型, 以及利用模型對未來資料進行分析決策。

這些研究人員具有三個突出特點:

一是非常強的駕馭資料管理系統和快速程式設計的能力,

二是和業務專家溝通並理解業務目標及約束能力、分析資料的能力,

三是與模型連接並預測到業務決策的能力。 具有這些能力的人,我們稱其為數據科學家。

所以,有了大資料之後,專家依然是需要的,只不過專家在決策過程中的作用與焦點改變了:專家已經不能獨享成功,而一定要和大資料系統共同完成一項複雜的任務。 大資料做了以往專家在資料分析領域的工作,但專家對於專業領域的價值和經驗依舊無法取代。 建立資料分析模型需要理解業務及業務目標,這仍需要專家的研究和貢獻,畢竟外行還是不能領導內行。

Q8:大資料最適合做什麼?

大資料的發展和其他任何技術的發展路徑一樣,都需要經過「初始化- 極端膨脹- 較大失望- 理性思考- 成功應用」這個逐漸成熟的過程。 在歷史上,聽起來先進的技術在這個過程中卻消失的例子比比皆是。 那些成功的技術一定要經得起理性的思考和時間的考驗,以找到它們在實踐中最合適的落腳點。

目前,大資料有一個作用可能還沒有被注意到——大資料可以連接大量不同的資料孤島,使得大資料所覆蓋的範圍更大更廣, 也使得大資料驅動的業務隨著這個雪球越滾越大。 這樣,消費者可以不斷得到新的資料, 而使用者也能不斷得到新的服務。

從現在大資料成功應用的領域來推斷, 應用最多的應該是集中在對過去事件的存儲、抽取,以及對不同資料的聚合聯通、總結統計上。 大資料聚合的重要作用之一是關聯不同資料之間發生的個別事件。 通過連通,即時發現事件真相。 有了這樣的資料就可以做以下分析:某個事件在發生的同時還會發生什麼其他事件?如何通過過去資料來預測未來可能發生的事件?如何能夠自動建議,用某種行為來促使某些事件發生,或保證某些事件不發生?等等。

  

Q9:大資料不能做什麼?

大資料明顯不是萬能的,那麼,大資料不能做什麼呢?

不能替代有效的商業模式。 大資料的應用不能沒有商業模式,比如如何在大資料業務中為使用者帶來價值,使得資料成長和商業增長同步等等。 而商業模式顯然不是能從大資料本身挖掘的,而是由具備豐富經驗的專家來確定的。

不能沒有領導的決斷力。 在今天的大部分公司中,資料的存在形式無異于一個個孤島。 把這些資料整合起來不僅是個技術活,還有很強的管理因素。 往往在同一個公司的不同部門會有很多競爭,資料就是一個部門的資產。 雖然把幾種不同資料聚合在一起會很有價值,但能真正做到這一點的公司卻會發現,要成功做到資料整合需要更高級領導的決斷力。 這也是為什麼一些很有前瞻性的公司會專門有一個部門來負責全公司的資料業務。

不能無目的地挖掘。 在大資料的初學者當中,有一個普遍的錯覺:當我們有了足夠的資料,就可以在其中漫無目的地找到知識。 這樣的錯覺實際上是不科學的。 資料採礦需要約束與目標,否則就是大海撈針,必然是徒勞的。 比如,開普勒的成功是建立在乙太陽為焦點的橢圓形假設上的。

不能沒有專家。 上文提到,大資料在不同應用領域會需要不同的專業知識來指導。 而不同的領域, 需要專家們的參與程度也會不同。 G o o g l e 實驗室有一個在大量圖片和視頻資料中, 讓電腦自動識別貓臉的例子。 但這樣的深度學習很難推廣到其他大資料的領域。 因為,成功的先決條件之一是該領域本身具有非常直觀的層次結構, 就像圖片的構成一樣。 如果某個領域的資料不具備這樣的層次結構, 就很難用同樣的方法自動探索規律。 而這樣一個結構是需要資料科學家來定義的。

不能一次建模, 終生受益。 一個好的模型需要不斷更新, 需要終生學習(Lifelong Machine Learning) 來不斷改進。 例如,在奧巴馬的競選中,科學家建立了一個使用者投票模型,來預測選民可能的立場,而這個模型是每週利用更新的資料來更新一次的。

不擅長做全域性的優化分析。 大資料下的主要資料處理方法是「分而治之」,即把大的資料分為小塊,一塊一塊地處理, 然後再把結果合併。 這個過程也許要經過很多次,但總的思想是這樣分化、合併之後的結果,與全域計算的結果是一樣的。 但是,還有很多問題是不能這樣來解決的。 比如,在下圍棋的時候,每一個棋子的目的可能和整個戰略都相關,所以分而治之的想法是行不通的。

不能沒有對其語義的標注。 目前只能通過對資料的標識賦予其意義。 比如,推薦系統在沒有使用者回饋的情況下效果很差,而通過現有的心理學模型等加強其效果都無效。 一般來說,如果試圖從資料中發現知識,則需要大量的資料標注。 往往在一個和使用者有直接互動的應用中是可以得到這樣的標識資料的。 要得到大量的標識資料,不僅需要一個平臺來承載有用的應用,而且需要一個對人、對大資料系統的雙贏經濟學模型。

不能僅用有偏的資料。 資料一定要全面地反映未來, 對各個方面都有所涉及。 如果資料是有偏的,則很難對未來進行有效地判斷。

不能保證包含有效的資訊。 當資料中的關鍵特徵缺失時,大資料就無法矯正資料與現實之間的偏差,尤其是對於那種與人的心理和行為相關的資料,非常容易產生偏差。 問題的關鍵是:研究之前,專家並不知道哪些特徵是關鍵特徵。 比如股價受到「黑天鵝」事件影響,使得無法用大資料預測關鍵事件發生的概率。 這就像一個輸入管道:垃圾輸入導致垃圾輸出。 這也是為什麼某些電影的實際票房和從網上評價資料得來的結果是背道而馳的。

不能保證減小噪音。 這是因為在大資料裡面,噪音資料的出現往往會以有意義的模式的形式出現,從而騙過知識挖掘系統。 這樣,大資料可能帶來更大的噪音。

Q10:後大資料時代的技術趨勢是什麼?

大資料所帶來的變革,只不過是電腦技術為整個人類帶來變革當中的一步。 電腦從上世紀五十年代起,就在人類歷史上開始了潛移默化的革命。 這個革命的根本標誌就是人類社會和行為的數位化,以及兩個世界(物理世界和虛擬世界)的無縫融合。 在這場革命中,人類傳統的行業一個接一個被數位化行業取代:從金融系統到電子商務,從機器人製造到無人駕駛汽車......

所以,大資料變革與人類歷史上其他重要變革是一樣的,需要經過資源( 即大資料) 的原始積累,商業和社會服務的差異化,直到人類對虛擬世界的行業、社會進行再規範,以解決資料資源配置。 這個歷史過程在上一個工業革命(十八世紀機器革命)時經過了一百多年,但在這一次的革命中,將以更快的形式發生。

以此推論,由大資料引發的下一代技術很可能是更大規模的、面向數位化行業的轉變, 這使得現在物理世界裡的眾多傳統行業將全面或部分地轉向數位世界,進行融合。 這個轉變也讓許多領域以另一種形式出現, 使得許多行業在整體「食物鏈條」上下游有所改變。 到了那一天,醫生、科學家和教師等「高大上」行業是否會成為大資料輸送原料的資料獲取和解釋分析結果的「工人」? 或是成為在大資料驅動下的人工智慧機器人的夥伴?這些都引人深思。

文/ 楊強 香港科技大學電腦科學及工程學系教授 華為諾亞方舟實驗室主任(2012-2014)

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.