幾乎所有人都意識到,大資料正在改變著人們的生活,它將帶來一場徹頭徹尾的革命,包括技術、產品、行業乃至整個經濟運作模式。 政府部門頒佈的一紙政策恰到好處地鼓勵了人們發展大資料的決心。 同一天,國務院發佈《關於促進資訊消費擴大內需的若干意見》,明確提出到2015年,資訊消費規模超過3.2萬億元,年均增長20%以上, 帶動相關行業新增產出超過1.2萬億元,其中基於互聯網的新型資訊消費規模達到2.4萬億元,年均增長30%以上。
面對如此誘人而巨大的蛋糕,無論是傳統的IT企業,還是在各種資料裡摸爬滾打多年的互聯網公司,甚至電信運營商都禁不住怦然心動:IT企業譬如Oracle、IBM坐擁先進的技術,互聯網公司譬如百度、阿裡巴巴則在廣告推送、 個人化行銷等方面率先踐行大資料技術多年,三大運營商亦掌握著其他企業無可媲美的真實且龐大的資料來源,各方憑藉自身優勢競相涉足大資料,都打定了分一杯羹的主意。
實際上,大資料的發展態勢早就引起了工信部智囊團隊——電信經濟專家委員會的注意。 財新記者獲悉,在2012年底的一次內部交流中,幾十名來自學界、業界、政府部門的專家集中討論的話題只有一個——大資料。
在討論聲中,大資料從理論探討到實踐創新日漸紅火,我們有必要關注這一新興領域從何而來,到底發展到了何種地步,又該如何拓寬大資料的盤子? 為此,財新記者專訪了工業和資訊化部電信研究院互聯網中心主任何寶宏博士,在他看來,在技術的推動下,以前不起眼的資料突然就變成了一種資源,而且還是一筆可能創造出巨大價值的資產。 只是這筆資產的應用目前還處於初級階段,也沒有相應的政策針對性地去引導這些應用。
大資料一定會成功
財新記者:現在市場都在熱議著大資料,大資料的定義到底是什麼?
何寶宏:坦白說,對於大資料,業內並沒有明確的概念。 在維琪百科或其他網路解釋中,將「傳統工具無法處理的資料」稱為大資料,有的會加一些定語,譬如「在有效的時間裡」。
在我看來,大資料的重點在於如何處理「大」。 「大」意味著容量大、記憶體多、變化快,相對來說,也是指處理這種資料的能力或工具,既然是大資料,就意味著是分析、處理、應用不規則且一直在變化的資料。
財新記者:目前,大資料發展到了何種程度?
何寶宏:大資料現在還不是一個行業,它是嵌入在雲計算裡發展的,規模還很小。 它的發展尚處於初級階段,還沒有成長到能夠從雲計算裡獨立出來。 要從雲計算裡獨立出來,至少還需要三五年的時間。
相對來說,雲計算已經過了概念描述期,正處於一個高速成長的階段,而現在的大資料,就像三五年前的雲計算,還處於培育期,大家都在討論到底該怎麼做產品、怎麼樣才會有市場。 簡言之,大資料處於吹泡沫階段,雲計算已經吹完泡沫,務實發展了。 不過,雖然大資料是剛剛才開始的技術,可這個技術迎合了社會的需求,一定會成功。
財新記者:大資料與物聯網、雲計算的關係是怎樣的?
何寶宏:物聯網可以看成是大資料的採集環節,雲計算為大資料提供一個通用的處理平臺,但僅僅依靠雲計算這個平臺是不夠的,需要在雲計算這個平臺上專門針對大資料處理做一些工作。
物聯網與大資料的關係要遠一層,至於雲計算與大資料,就像作業系統與資料庫管理系統一樣。 大資料是基於雲計算的基礎服務,幾乎每一個大資料的處理都要依託雲計算平臺。
誰是大玩家
財新記者:大資料這一概念為何會在現在爆發?
何寶宏:任何技術都不是平白無故出來的。 2000年以前,大家都致力於研究傳統的資料庫,對結構化資料進行處理;2000年以後,以谷歌、亞馬遜這幾家互聯網巨頭為代表,開始對非結構化的資料進行處理,並運用資料採礦的成果去推薦自身產品或投放廣告等。
直到2011年、2012年,經過了十年的實踐、研究,互聯網巨頭們終於通過不斷的技術創新,找到了一種廉價的、高效的處理各類不規則資料的方法,並從這種資料處理、應用中獲益不菲。 在有利可圖的情況下,況且這筆利潤可能還不小,其他行業自然意欲將互聯網企業的做法搬到自己所處的行業中,這樣,大資料這一概念就被包裝出來了,也就是近兩年的事情。
財新記者:當前,依託大資料,可否有成功的盈利模式?
何寶宏:現在,大資料應用得最成功的還是一些互聯網企業。 百度可以通過分析使用者語義,瞭解使用者習慣、愛好,以便推送廣告,阿裡巴巴也能利用資料採礦進行精准的產品行銷,這種根據使用者流覽、搜索等行為分析使用者需求繼而推送廣告或產品,是當前最典型的大資料應用模式。
實際上,等大資料真正發展起來,可能會出現超乎想像的應用,就像谷歌通過分析人們搜索的關鍵字竟然可以對流行病進行預測那樣,很多創新性的應用將隨之出現,發展空間之大我們目前還難以預料。
財新記者:大資料現在最主要的應用在互聯網領域,具體案例如何? 可否供其他行業借鑒?
何寶宏:以淘寶為例,這個電子商務平臺擁有的商品超過10億種,交易總額已經突破萬億,每天約有30億次網頁流覽、數千萬筆商品交易。 如此多的商品資料、使用者資料、交易資料、社交資料等,經過分析、挖掘,最終形成的應用流向了交易的全過程,包括使用者潛在的購買需求預測、針對性地推送產品、商品滿意度調查、商家信譽等,甚至還流向了支付、保險、物流等環節, 衍生出極具想像力的應用。
在互聯網企業應用大資料的過程中,一些通用的資料分析方法、資料開發工具可以給其他行業一些參考,但具體要分析哪些資料,挖掘出什麼價值,創造出何種新應用,卻不能照搬互聯網的那套模式,應該按照不同行業、企業的具體要求去做。
現在,不少企業已經認同了「資料是一種資產」的理念,只是不懂得如何清點清楚這筆資產。 它們看到了互聯網企業基於大資料獲得的巨大收益,也在想著如何盤活自身的大資料,只是還沒有尋找到合適的應用,仍在結合自身業務尋找大資料的盈利模式。
財新記者:在您看來,未來在大資料這個產業鏈上,誰會是主要的玩家? 它的發展趨勢如何?
何寶宏:大資料是從互聯網延展開去的,各行各業都將湧入大資料。 現在看來,兩類企業在大資料領域佔據優勢,一類是互聯網企業,譬如國內的百度、阿裡巴巴,既掌握著大資料技術,自身又能夠捕捉使用者資料、擁有龐大的資料來源,必然能做大資料;一類則是專門做大資料分析的公司,它們可能規模不大, 自身也沒有資料,但是掌握著大資料的相關工具和技術,可以幫一些不具備大資料能力的企業做分析,譬如在鋼鐵、能源行業。
首要問題是政府資料的開放
財新記者:如您所說,大資料的發展尚處於初級階段,那麼,在這一發展階段存在哪些問題?
何寶宏:大資料歸根到底要先有海量的資料,現在關鍵的問題在資料來源上。
首要問題是資料的開放。 實際上,政府是最主要的資料來源,如果政府的資料不開放,大資料的市場就會相對狹隘,很多創新的應用也將無法實現。 至於企業,尤其是國內傳統的大國企,部門與部門之間的資料尚且不能完全透明、開放,要求它們對外開放資料就相當困難。
所以,在大資料發展的初級階段,我們看到的大部分是「私有大資料」,譬如交通部門掌握交通資料、銀行部門掌握銀行資料、電信部門掌握電信資料,等等,彼此之間卻不能互通共用,形成一個個「資料孤島」。
除了開放資料,資料來源的標準化、資料來源的品質控制等也面臨著困難,業界也在探討解決之道。
在討論資料來源的難題之際,隨之而來的還有隱私洩露、買賣資料等一系列資料安全問題。 國家工信部一再強調保護個人資訊安全,前不久也頒佈了《電信和互聯網使用者個人資訊保護規定》。 但是,如何在大資料時代更大範圍地保障資訊安全,沒有人知道,因為現在的資料大多還不是相互開放的,連都還沒有連起來。
財新記者:針對大資料,我國政府部門出臺了哪些政策予以引導? 國外是否有相關政策可供參考?
何寶宏:大資料是新興事物,至今還沒有針對性的政策頒佈,但在政府部門的宏觀政策譬如「十二五」規劃裡,已經多次提及海量資料處理問題。
實際上,開放政府資料無疑是對大資料的最大政策支援,只是這是一個漸進的過程,實現真正的資料開放還需要很長的時間。
在國外,資料開放也是令人頭痛的事情。 不過,美國政府走在了前面,美國總統奧巴馬已經明確要求政府資訊公開,所有不涉密的資訊都要以機器可讀的形式開放給公眾,譬如氣象資料、醫院收費資料。 這樣的資料開放已不再止于公佈一個結果,即資訊公開的層面,而是公佈形成這一結果的各種資料演變過程。
我們應該意識到,基於大資料的國際競爭已經悄然到來。 2012年3月22日,奧巴馬將大資料稱為「未來的新石油」,宣佈了2億美元的大資料投資計畫。 可以說,美國政府已將大資料從自發的商業行為提升到國家戰略的高度。 競爭之下,我國政府應該會對大資料做出新的考量。
財新記者:資料開放的價值在哪裡?
何寶宏:資料不聯網,價值就會大打折扣。 當然,通過分析單個企業的資料也能實現一些價值,但資料更大的價值在於,不同的資料來源能夠相互關聯起來,就像20年前的電腦,不聯網也可單獨使用,可一旦聯網,產生什麼樣的應用,當時根本無法預料, 惟一確定的是聯網之後的價值遠勝於從前。
大資料也是一樣,我們可以認為現在的互聯網連接的是硬體設備,包括PC、手機、平板,未來互聯網則是連接各種各樣的資料,形成一張資料網,價值不是更大?
你可以發揮想像力,當交通部門的路況資料、銀行的消費資料、電信運營商的使用者位置資料以及互聯網廠商的商品⋯⋯這些重疊在一起,什麼樣的可能性都會出現。
財新記者:從政策層面,如何保障資料開放之後可能存在的安全問題?
何寶宏:實際上,技術的進步使得網路匿名變成數學上不可能的事。 只要有合理的商業和安全動機,任何形式的匿名和隱私都只是演算法上的不可能。 你是誰已不再重要,重要的是你身上的標籤資訊,例如位置、性別、年齡、興趣、方向以及職業等。
據有關研究,20年前,可以通過「性別+郵編+出生年月日」,識別出87%的人。 而大資料時代,通過分析使用者4個曾經到過的位置點,就可以識別出95%的使用者。 大資料沒有原罪,需要反省調整的不是它,而是我們自己。 大資料時代需要調整我們對隱私保護的理念。 比如,法律和政策不應去不斷擴大「個人資訊」的保護範疇,而是限制大資料應用的目的。 隱私保護需要做的,是將大資料監管重心從收集環節轉移到使用環節,而不是相反。