大資料戰爭 即將到來的全球資料革命

來源:互聯網
上載者:User

「喂? 不要! 不要! 」

辦公室裡常能聽見這樣簡短的手機對話。 你的同事在不到3秒的時間內對這個未知來電按下了結束通話的按鈕。 而電話的另一頭,你都可以想像到是一個甜膩客氣至極的推銷員聲音。 現如今,你以及你的同事常常會被莫名其妙的廣告推銷電話、短信所困擾,以至於智慧手機上都必備一個能自動遮罩騷擾電話和垃圾短信的小軟體。 對於這類事情,其實你只要稍微細想一下就能發現至少兩個問題:一是你的姓名、手機號、家庭住址等私人資訊肯定被某無良的仲介、營業廳或是網站給出賣了;二是這些條目簡單的資料資訊真的就能賣錢!

在這個科技高速發展的資訊時代,我們的日常生活基本上都可以數位化地表示。 你幾點幾分從什麼位置的家出門,坐什麼車花了多長時間到了工作地點。 這期間,你每發一次微博和打一次電話,包括經緯度在內的精確地理位置資訊都被記錄在案,而你的通話記錄在許多年之後仍可以被調閱查詢。 電子設備日新月異,互聯網無孔不入,你的一舉一動都產生了大量的資料。 雖然,現在大資料的概念被熱炒,但大資料本身並不是技術,而是一種可以催生出技術的時代現象。 記錄和管理這些資料成為資訊時代的突出特徵,我們稱之為「大資料時代」的降臨也並不過分。 雖然你自己可能意識不到,也不懂玄妙的科技內核,但是這些龐大的、看似平常而又瑣碎的資料其實已經形成了一種寶貴的資源。 大資料可以帶來驚人的財富,因此它也成為了人們爭相搶奪的目標。 若想把握未來,就一定不能放棄這個沒有硝煙的新戰場。

大資料有多大?

近10年來,世界上電子資料增長的規模和速度是異常驚人的。 美國國家安全局自2001年,也就是9·11事件發生前7個月始,就一直在不分類別地搜集和保存所有美國公民的詳細電話通訊記錄,5年內這一數量就多達1.9萬億條。 由於涉嫌侵犯公民的隱私,這一情況直到2006年被《今日美國》披露後受到了廣泛的質疑。 現如今,資料量的增長更是指數級的。 2009年,美國政府產生的資料達848PB(848×106GB),並且僅美國的醫療資料就達150EB(150×109GB)。 2011年全球產生的資料量已經達到了1.8ZB(1.8×1012GB),並且預計將每年翻番。

產生如此多的資料並不難理解。 從二維碼的流行以及智慧電子設備的普及就可以感受到,我們周遭的所有東西基本都電子化了,物聯網正在悄然搭建。 可以細想一下,你身邊哪怕是最簡單的一個物件都曾在超市里有過一個一維條碼。 也正是因為一維碼的資料資訊存儲量不再能滿足日常生活,二維碼才開始廣泛應用的。 未來,哪怕是一棟建築、一輛汽車也都將會有二維碼,通過手機掃描這個碼,我們可以即刻在網上搜索到關於它的所有歷史資訊資料。 世界上將不再會有未被編碼的漏網之魚了。 也可以說,一旦被遺漏,那麼它就等同于不存在。

不過,巨大資料量的產生如果只是關於死物的話,那倒並沒有什麼值得大驚小怪的。 真正會帶來革命性改變的是關於活人的資料資訊。 大資料時代形成至關重要的一點就是,人類行動的資料資訊終於可以被系統地、規模化地掌控了。 根據公路、公交、地鐵、計程車、商場及辦公樓等建築物裡現有攝像頭的安裝數量估計,如果說一個人每天在監視器上出鏡次數過百,你應該一點也不感到新奇。 特別是,我們現在的工作和生活一刻也離不開電腦和智慧終端機。 也就是說,你的一舉一動都會產生大量的資料,並被互聯網和移動運營商記錄下來。 要知道,預測人類的行為,這在以往基本上是不可能完成的任務。 而在大資料時代,研究和預測人類的行為終於變為可能,這一點意義非凡。

人類的行為究竟可不可以預測?

有人會質疑,人類的行為這麼複雜,影響因素那麼多,所思所想與所做所為大相徑庭,表裡不一、謊話連篇的人比比皆是。 特別是,真實思想不可能被電子設備捕捉,僅僅依託于分析你以往的行動歷史,怎麼就能預測出你之後的實際行為?

的確,長久以來,人們都普遍抱有類似的觀點,認為日食和流星雨等自然規律是可以預測的,但是所有的預測一旦涉及到歷史和社會科學問題,就只能以失敗告終。 還有人認為,事情順其自然地發生就好,預測本身就沒什麼意義。 但事實上,預測在我們周圍無處不在。 比如,天氣預報因為極大地影響人們的工作和生活而成為收視率最高的節目,工作計畫也是每年每月必做的功課;甚至,建一棟房子,修一條馬路前都需要預估容量和車流量,不然建大了是浪費,建小了會擁堵。

關於人類行為的預測,其實只需要理解一條精髓就好——人都是習慣的奴隸。 事實上,精確地預測出一個人下一分下一秒會做什麼動作毫無必要。 只需要大概預估出某人在某一天的某一個時間很可能出現在什麼位置,就已經能產生巨大的作用和影響了。 以你自己為例,想預測你週三下午3點的位置一點也不難,因為你在工作單位的可能性非常之高。 工作日裡,你起床、出門、乘坐何種交通工具,到達單位,吃飯以及回家的時間和路線基本都有章可循。 稍稍研究一下你週末的出行和聚會習慣,也可以發現不少規律。 甚至細想一下,你和某人約會的地點,都很可能常常是某一家咖啡館或餐廳。 也許你會生病請假、出差辦事,但那都是異常情況。 我們基於各人習慣進行預測的準確度確實會因人而異,但總體上講,準確度都比你想像的高。

由於人類從來沒有像今天這樣如此依賴網路和電子設備,因此,大資料時代產生如此多的電子蹤跡讓研究每個人、每個群體,甚至整個人類的習慣成為了可能。 這可以帶來很美好的生活。 比如,基於對你位置的即時定位和資料分享,在你進地庫時就開始著車,進門前就亮燈,坐在位置前電腦就開啟,咖啡就上桌,這些在技術上並不難實現。 同樣,基於對你的蹤跡的預測,你每走一步之前都可以設計好一個陷阱等著你,你這一步踩不到,下一步也總能踩到。 以前的「飛天大盜」要實地勘察幾個月甚至數年來分析某人或某機構的習慣規律以實施犯罪行為。 以後,只需要一台電腦和簡單的駭客手段就可以做到了。 而GPS即時定位資訊及預測僅僅是大資料時代一個很小的斷面,你可以據此推想其他方面更為美好或更為恐怖的生活狀態。

商機還是危機? 競爭還是戰爭?

當你進入亞馬遜的網站時,它會「猜測」你可能會喜歡什麼樣的產品,並在首頁給你推薦。 當你流覽京東網頁上的某一產品時,類似的產品連結就在旁邊方便你點擊、比對。 這是因為在電腦上,你什麼時間流覽了什麼網站,點擊了哪些連結,網上購物時買了什麼樣的東西,花了多少錢,你中間點擊了哪些、什麼樣、什麼價格的產品,最後做出了什麼樣的選擇都有跡可尋。 大型電商網站會基於這些資料,分析顧客習慣並優化自己的產品結構,變更網頁,以達到促進、方便消費的目的。 這是通過「資料相似性」的簡單應用就達到特別成功效果的一個典型案例。 由於雲技術和物聯網慢慢滲透到我們生活的方方面面,以及物流業的蓬勃發展,我們過上了更為便利的生活。 也正是基於這些變化,實體商店正在電商的打壓下迅速走向衰落。

從企業層面來講,大資料已經帶來了產業的巨大改變,因此這是一個商機和危機並存的時代。 比如,看著淘寶、京東實力的擴大,傳統的電器賣場蘇甯也開始走向電商轉型的道路。 銀行保險業更是先一步就建立了大規模、高水準的資料中心和研究機構。 理財、保險產品的設計和定價沒有客戶資料的採集和分析作依託,就是無稽之談。 谷歌、微軟之類的公司之所以強大,正是因為龐大使用者數量帶來的海量使用者大資料讓他們占盡了優勢。

從國家層面來講,大資料同樣已經成為一個改變實力消長的重要環節,國與國之間的競爭在大資料時代的表現將是資訊上的殘酷戰爭。 這並不是危言聳聽。 在過去,掌握真實材料和撰寫歷史是只有極少數人才可以享有的一種特權,研究和發現人類的行為規律很難也很不精確。 而在大資料時代,無法估量的資訊資料就那麼冷冰冰地躺在那裡,它本身雖然沒有生命,但是通過管理、篩選和分析,許多關於人類社會行為的論點會被驗證也會被推翻,許多人類行為的奧秘也會浮出水面。 正如同掌握了日月星辰的規律才可以預測並加以利用一樣,未來誰能從大資料中發現並掌握人類行為的規律,才能在資訊時代的嚴酷戰爭中處於優勢地位。

大資料是不是讓我們更加無助?

應該說,在科技改變生活的大資料時代,人文社會科學領域燃起了新的希望。 在科學的研究方法指導下,社會調查和實踐的難度在降低,規律的發現和驗證變得可行。 以往社會科學工作者們對於社會組織架構及人類行為的許多理論都是空想,以後基於大量科學、可靠的資料,就可以進行實實在在的調查研究。

大到一個國家,小到一個行業,這些資料都非常寶貴,其重要作用不可小覷。 舉一個簡單的例子,我們國家是一個人口基數龐大的國家,因此病患也非常多,從醫療衛生的角度考慮,醫療、養老都是巨大的負擔。 但是,如果我們從醫藥、治療的角度來講,這些病患則是一筆巨大的財富,患者生病、治療及用藥產生的大量資料為我們進行醫療研究、藥品研發提供了大量鮮活的樣本。 實際上,中國也正因為患者樣本的高充足率,已經成為了國際藥品企業爭相利用的市場,而中國的不少醫生也因為「見多識廣」而成為技術嫺熟的名醫。 同理,由於人口眾多,大資料也為我國社會科學領域的迅速崛起提供了前所未有的機遇,如果能把握住就能贏得未來,把握不住就會一敗塗地。

對個人而言,不少人在瞭解了大資料之後,都會為更美的明天而欣喜,但同時也會因不自覺地陷入了資料的囹圄而擔憂和驚惶。 無時無刻不被資料的大網監視和洞察,讓人無所適從。 雖然現在不少人都樂於在網路上大搞「生活秀」,但沒有隱私地做一個透明人,終究不是所有人的願望。 有人擔心,大資料時代的到來會將人類置於無助的境地。 但事實上,如同所有科技一樣,數位都是死的,關鍵在於運用它的人。 大資料帶來的是天堂還是地獄也取決於掌握它的人。 此外,即使大資料天網恢恢,它所捕捉的永遠是人的行為,而非思想。 而對於人類而言,腦袋裡裝的東西才是真正可以永恆的財富,巨型的資料機器是掠奪不走的。 這就好比,從無處不在的攝像頭,你可以看到我最近經常會去某個商場和某家店逛,並精確分析列出我去的次數、時間以及停留的時長,並據此得出我是一個購物狂或時尚癖的結論。 可實際上,我心裡所想卻是為了去那裡「偶遇」之前曾一見鍾情的一位不知名的美麗姑娘。

連結

大資料的特徵

大資料是指大量、高速、複雜、變化不定的資料,需要用先進的方法和技術實現資訊的收集、存儲、分配、管理和分析。

體量大、類型多和速度快是大資料的顯著特徵。 目前,15%的資訊是結構化資訊,便於存儲在關聯式資料庫中。 電子郵件、視頻、話務中心對話和社交媒體等非結構化資訊占85%。 這對於運用常規的業務情報工具來提取有意義的資訊造成了挑戰。 感應器、平板電腦和行動電話等產生資訊的設備繼續成倍增加。 隨著全世界的聯繫更加緊密,社交網路也在加速發展。 這些共用資訊的選擇意味著公眾、政府和企業間互動方式的根本轉變。

從大資料的特徵來看,資料來源增加,感應器的解析度提高,使得大資料的體量大。 資料來源增加,資料通訊的輸送量提高,資料生成設備的計算能力提高,使得大資料的速度快。 行動裝置、社交媒體、視頻、聊天、基因組學研究和各種感應器使得大資料的類型多。 以資料為基礎的決策要可追溯,要有理有據,這使得大資料還應具備準確性的特徵。

大資料的這些特徵將決定政府在大資料業務和整個大資料生態系統中收集、分析、管理、存儲及分配資料的方式。

(責任編輯:蒙遺善)

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.