大資料可能是近一年來最時髦的詞了,大資料真正的本質不在於「大」,而是在於背後跟互聯網相通的一整套新的思維。 大資料跟傳統的資料最大的差別在哪呢?
1.線上。 首先大資料必須是永遠是線上的,而且線上的還得是熱備份的,不是冷備份的,不是放在磁帶裡的,是隨時能調用的。 不線上的資料不是大資料,因為你根本沒時間把它匯出來使用。 只有線上的資料才能馬上被計算、被使用。
2.即時。 大資料必須即時反應。 我們上淘寶輸入一個商品,後臺必須在10億件商品當中,瞬間進行呈現。 如果要等一個小時才呈現話,我相信沒有人再上淘寶。 十億件商品、幾百萬個賣家、一億的消費者,瞬間完成匹配呈現,這才叫大資料。
3.全貌。 大資料還有一個最大的特徵,它不再是樣本思維,它是一個全體思維。 以前一提到資料,人們第一個反應是樣本、抽樣,但是大資料不再抽樣,不再調用部分,我們要的是所有可能的資料,它是一個全貌。 其實叫全資料比大資料更準確。
這是大資料的三個本質,線上、即時、全貌。
大資料的3個典型特徵
為了讓大家對大資料有更多的理解,我再把它展開跟大家討論一下。 大家做企業,最容易想到的兩個數據應用,一個是市場調研,派個市場公司或市場部門做一個調查,去看下各公司什麼回饋。 第二個就是商業智慧BI、資料採礦,查看資料經營的報表。 這是最傳統的兩個數據應用。 這樣的資料應用有幾個典型特徵:
1.要知道準備達成的目標,從而主動收集這些資料。 由於每個企業的計算能力跟成本不一樣,資料資料保留多少時間、哪些資料能用,是有所不同的。 而大資料是即時的記錄資料。 原則上,任何人上任何一個網站、做的任何事情,所有事情都會被記錄下來,沒有人事先做區分。 所以大家不再去問,是資料就記錄下來,所以這是第一個差別。
2.參與的人不再是有意識的參與,而是無意識的參與,你是為自己的利益在做事情。 你用一次搜索,你就參與了谷歌的大資料搜集,因為你的每次點擊就是一個資料來源。 如果讓你參加一個市場調研,80%的情況下你會拒絕,15%的情況下你可能會要求某種意義上的補償。 很少有人願意主動的參加市場調研,因為對你來說是個負擔。 但是線上的大資料對絕大部分人來說,完全是一個無意識的、自利的行為。 我上淘寶就是為了買東西,我上微博是為了看新聞,我上百度是為了搜索,你都是為了自己利益而觸發的一個無意識的行為,但這個無意識的行為,都為大資料做了貢獻。
3.一個是單向,一個是雙向。 我們以前做的資料分析也好,都是先假定一個目的,然後拿到現成的資料,分析行為,來測試我的猜測。 這些都是有一個單向的主導。 大資料本質上一定是雙向的,就像搜索,你點擊搜尋引擎點擊的時候,你是給它輸入了資料,它給你的結果就是它與你的互動,就是它帶給你的資料價值。 這個大資料本身也在隨時為你創造價值,這樣的話就變成一個雙向互動的正迴圈,雙方都給對方貢獻了資料價值。 任何大資料應用,如果在設計時就沒有這種雙向、互利的正迴圈的話,是跑不起來的,本質上就不是大資料。
大資料應用,反應速率才是關鍵
最後,我還想強調的是反應速率——大資料的資料價值越大,它的反應速率就要越高。 比如說谷歌的搜索,你輸入一個關鍵字看到的結果,跟一個小時以後再輸入同樣的關鍵字得到的結果,很可能已經不一樣了。 因為它已經把一個小時內全球所有的點擊重新計算了一遍,然後把資訊做了結果優化再回饋給你。
所以,大家可以想想看,回饋的速度越快,它創造的價值越大,消費者參與的動機就越大。 資料越跑越大、反應越來越快、結果越來越好、使用者參與會越來越大,才能變成一個黑洞效應。 這是我想講的大資料的核心概念。