大資料的大未來

來源:互聯網
上載者:User

「我們以為自己需要資訊,但其實我們真正需要的是知識。 」

——《信號與噪音》

| 文 ·本刊記者 蔡爽

早在2008年,著名的科學雜誌《自然》就推出了一期名為「大資料」的封面文章,詳細講述了「資料」在數學、物理、生物、工程及社會經濟中所扮演的愈加重要的角色。 如今這個原本晦澀的詞語已經悄然成為了工商界和金融界的新寵。 關於大資料的會議和論壇如雨後春筍般層出不窮,但到底什麼是大資料,依然眾說紛紜。 「我們認為,大資料應該具有規模大、價值高、交叉複用、全息可見這四大特徵,尤其是最後兩個概念,它體現了大資料不僅僅有‘規模更大的資料’ 這種量上的進步,還具有不同于以前資料組織和應用形式的質的變化。 」談到大資料的前景,北京永洪商智科技有限公司總經理Arlene顯得異常興奮。

據瞭解,一般認為,大資料是資料分析的前沿技術,是新一代資訊技術與產業發展的重點領域,隨著現代市場經濟的發展,大資料將成為全球整體發展新引擎的趨勢也日益明顯。 正是預見到了「大資料時代」早晚會到來,歐美髮達國家才紛紛把資料資產保護與利用上升為國家戰略。 另一方面,根據國際資料公司(IDC)的預測,中國有望很快開啟全世界最大的大資料超市,2020年的市場規模可能超過2萬億元人民幣。

兇猛的大資料

「如果每一個資料都只是孤立的,只能在和他直接關聯的領域發揮自身價值,那這並不能說是一個資料革命的時代,我們要找到實現資料之間一加一遠大於二的價值,其間最關鍵的問題就是發揮資料的外部性。 」對於若干資料之間新的組織和應用形式,Arlene也有自己的想法,他向《中國新時代》記者表示,隨著移動互聯網的普及以及統計方法的日臻完善,大資料正在快速拓展它的應用範圍。 「比如,國家電網通過智慧電錶系統可以估計房屋空置率,阿裡巴巴通過淘寶銷售資料可以判斷經濟運行的走勢,微博的ax關注關係和內容資訊可以利用於廣告推送等等。 」

「具體到永洪科技而言,由於規模的原因,我們還不能和那些科技巨頭相比較,但這並不影響公司的快速發展。 在剛剛過去的2013年,我們又迎來了一大筆風險投資,雖然和巨頭們尚有不小差距,不過在我們的領域已經算不錯了。 」Arlene補充說道。

但其他企業卻沒有這麼幸運,據Arlene介紹,即便大資料在中國發展很快,但每年仍有不少公司倒閉,其中最大的原因就是方向的迷失。 「以使用者為中心,結合使用者在不同領域留下的軌跡,實現資料交叉,這才是大資料產生價值的最可行途徑之一。 」Arlene說。

2012年初,北京永洪商智科技有限公司在北京理工大學留學生創業園成立。 作為北京市的高新技術企業,永洪科技主要致力於廣電、電信、移動、安全、互聯網、政府等大型行業的專業諮詢服務和系統建設,並積累了較豐富的資料資源。 雖然成績不錯,但Arlene對於公司的主營業務也並不放心,用他的話說就是,「有人歡喜有人憂,兇猛的大資料像不可阻擋的浪潮,席捲了我們所有人,剩者為王,活得下去才能做大。 」

而這一切的發端,歸根結底還是有賴於互聯網產業的發展。 正是它的發展,使資訊產生、組織和流通的方式都發生了革命性的變化,而最重要的改變莫過於單一個體第一次成為了資訊產生和流通的主體。 普通人上傳網路的一張照片、一段視頻;發送的電子郵件,聊天軟體聊天,在電子商務網站購物,用信用卡支付⋯⋯一切與互聯網相關的資訊流動都轉化為資料,存儲在伺服器中。 僅僅十餘年,很多企業爬過MB時代,走過GB時代,現在正被趕著跑過TB時代,去迎接PB時代。 就在當下的中國,很多大公司僅僅每天的更新資料量就已經接近或達到了PB量級。

但也有不同意見認為,資料規模在爆炸性增長的同時,資料產生的附加價值似乎沒有與之同步增加,甚至有學者相信,資料價值的密度會隨著資料量增加而降低。 Arlene也向《中國新時代》記者談了他的看法,「我認為,這其中沒有絕對的因果聯繫,出現這種滯後情況的癥結在於缺乏從海量資料中挖掘價值的高效方法和技術人員,這也是我們所努力的方向。 」

他向記者表示,如果一組資料的價值是其規模的自然對數,當你從1GB的資料中掙到9塊錢,給你1PB的資料,也只能掙到15塊錢。 而如果能充分挖掘資料價值,使該資料的價值和其規模成正比,那麼,1PB的資料可以帶來的收益就是九百萬元。 「這其中差別巨大,所以對於真正的大資料,其價值的增長應該正比于規模的增長,甚至快于它。 」Arlene如是說道。

回憶起幾年前創業的艱辛,Arlene坦言,定位的精准是永洪科技成功發展的關鍵。 據瞭解,永洪科技的管理層是一支年輕的團隊。 作為國家重點扶持的留學生創業企業,公司的管理層成員均具有海外留學及從業經驗。 「我們的第一個大資料客戶來自于電信產業,最開始是他們找到我們,那時公司還沒有很好的客戶和專案積累,後來他們又去考察國際國內其他廠商,當時我們覺得可能希望不大了。 但一個月後他們回來了,決定和我們合作,後來他和我們說:考察了一圈,找不到比永洪科技更適合的廠商了。 慢慢地,公司的客戶多了起來,下一步我們打算去貴州看看,在那邊尋找新的機會。 」一位永宏科技的聯合創始人這樣說道。

貴州起航

永洪科技期望將貴州作為自己二次騰飛的起點,並非沒有緣由。 雖然北京等大城市的人才、市場優勢非常明顯,但諸如政策、地理集聚、人力成本等卻是無法彌補的短板,而這正是貴州的優勢。

2013年底,乘著貴陽高新技術產業開發區獲國務院批准的春風,貴州再次成為了中國大資料產業的中心。 幾乎是在同一時間,中國電信、中國移動、中國聯通(600050,股吧) 等一大批資料巨頭的雲計算基地陸續在貴安新區破土動工。 據瞭解,其中中國電信雲計算中心總占地500畝,總投資70億元,一期建成後伺服器容量為100萬台,2014年底起可陸續投入商用。 中國移動(貴州)資料中心專案計劃總投資20億元,用地約275畝,專案總規模約21萬平方米,包括16萬平方米新型綠色資料中心機房,1萬平米倉儲用房,4萬平米生產支援用房。 中國聯通(貴安)雲計算基地占地約500畝,計畫投資約50億元,主要建設基礎構架、資料中心資源地、災備系統、機房建設等設施。

貴州省通信管理局局長李德明此前曾對外界表示,隨著我國「四化同步」、「兩化融合」、「產業升級」等一系列產業資訊化扶持政策的出臺,資訊化已經成為貴州發展不可或缺的一環。 「貴州資料中心作為行業應用資訊化的物理載體,一定會有越來越多的企業,特別是通信運營企業開始新建或改造升級自身資料中心以提高自身資訊化水準和企業核心競爭力。 關於貴州大資料的說法眾說紛紜,但不外乎一個,我們主要做的就是互聯網伺服器的託管與經營,這些都是構成互聯網網路基礎資源的重要部分,就像骨幹網、接入網一樣,我們目標就是要為互聯網使用者提供高端的資料存儲、處理和傳輸服務。 」李德明說。

Arlene也很看好貴州未來的發展,「建成後的大資料基地將會實現高科技、低成本、綠色節能。 我相信,貴安新區可以憑藉中國電信、中國移動、中國聯通資料中心等重大專案,在資料獲取、分析挖掘、應用服務領域得到發展,並推動電子政務、電子商務、智慧旅遊、智慧交通、智慧城市等產業起飛,最終達到國內領先水準。 」而從地緣條件看,即將進入「高鐵時代」的貴州因為正好處于中國東盟自由貿易區、中緬印孟經濟走廊,所以是中國西南部地區重要的陸路交通樞紐。 今後,隨著中央及各部委的政策支援及貴安新區躋身國家級新區,在諸多政策和改革方面均有先行先試的可能。

另有業界分析師也對記者表示,貴州發展大資料產業優勢主要在於:貴州遠離地震帶,具有地質結構穩定、災害風險低的特點,大資料企業選擇落戶貴州能最大限度地降低企業的運營風險;同時貴州的能源優勢能夠為大資料企業提供廉價、 穩定的電力資源,資訊流和能源流也能夠得到較好的結合;最後,貴州還是三大軍工企業的基地,彙聚了一批航空航太電子(600879,股吧)裝備企業和朗瑪科技等新興電子資訊企業,具有一定的產業配套支撐能力。

重新發現大資料

「自從有了印刷術,我們的世界已經經歷很多。 資訊不再那麼稀有,我們擁有的資訊太多,甚至多到無從下手,但是用到的卻寥寥無幾。 我們的本能是主觀地、有選擇地看待資訊,但對資訊的曲解卻關注不夠。 我們以為自己需要資訊,但其實我們真正需要的是知識。 」美國著名資訊專家納特·西爾弗在其專著《信號與噪音》中這樣寫道。

在此書中,他提出了一個著名的設問,即資料究竟對於我們的未來是有所説明的信號,還是毫無意義的噪音?西爾弗成名于奧巴馬競選期間,當時美國大選選情膠著,但西爾弗卻利用棒球的統計方法得出奧巴馬必勝的結論。 這一預測讓他名聲大震。 但是他很快開始反思,利用大資料獲得成功預測的案例遠沒有失敗的多,為什麼?對於現在普遍提到的大資料概念,系統的判斷依賴的是歷史資料,而人除了依賴于歷史外還依賴于現場判斷,有時候人的潛力並不能用資料表現。 當西爾弗在棒球場利用大資料預測結果時,他發現球員的信念和專注力才是決定他在場上可以出色發揮的關鍵。 而這兩點,都是資料系統無法感知的,也不符合現在著名的「速度快,包含度高」的大資料定義。

Arlene也認為現在很多所謂大資料定義並不準確,甚至庸俗化了大資料的意義。 「從我的經驗出發,處理速度快就絕對不是大資料的特徵,而僅僅是互聯網資訊服務的自身需求。 十年前沒有大資料,但互聯網使用者也不會苦等一個小時,雖然那時候資訊量小,但即時計算的難度並不比現在小。 」據Arlene 介紹,現在很多典型的大資料運算,短的要幾小時,長的可以達到數月甚至數年,可能具有同樣巨大的價值。 「顯然,1秒鐘算出結果不是大資料的特徵,算得越快越好從人類發明計算就已經開始探索,把它當作當下資料時代的標籤,顯然並不合適。 」Arlene說道。

事實上,在Arlene看來,資料的分析能力才是大資料最突出的問題。 「舉一個極端的例子,如果谷歌把每天超過1PB的資料按照自己內部的格式無償開放給一個科研或創業團隊,很大可能這些資料對團隊的發展沒有任何説明,因為他們沒有針對這種量級的資料進行檢索、抓取、計算、分析的能力。 也許他們僅僅只對資料內部的一個特定邏輯片段有興趣,但是他們沒有辦法知道這個邏輯片段位於這個資料的哪個位置,以及通過什麼辦法獲取。 」

  一方是迅速增長的資料量,一方是急需資料的市場,誰能聯結二者,誰就有可能在競爭中領先,而這也是永洪科技的一直經營的「殺手鐧」。 據 Arlene介紹,從成立伊始,永洪科技就協同合作夥伴在電商資料魔方、廣電收視行為分析、電力大資料分析、交通大資料分析等資料聯結領域展開深度合作。 「大資料規模可以很大,但是用起來應該像操作一個‘小資料’一樣簡單,這就要求資料歸納得非常好,應做到內部的各種內容及關聯清晰可見且容易調用獲取。 」Arlene如是說道。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.