仲介交易 SEO診斷 淘寶客 雲主機 技術大廳
關於大資料的誤區:資料統計是已經發生的事情,而大資料往往被用於還沒有發生的事情預測或者推薦中,二者不能劃等號。 不過,無論資料統計也好,大資料也罷,都是為了使工作變得更為有效,讓決策更為理性而準確。
大資料太火了,被廣泛應用到各行各業,而近階段又有著明顯的過熱跡象。 大資料到底是一個行銷詞彙,還是一個方法論?本文作者老李正是一家大資料服務提供者的資深員工,他所做的專案就是針對不同行業進行大資料分析。 他認為,關於大資料你首先必須有一個基本認識,那就是「大量的資料並非一定具有價值」。 另外,資料統計並不等同于大資料,資料統計和大資料的區別就在於人工智慧。
近兩年來,「大資料」被廣泛應用到各行各業,而近階段又有著明顯的過熱跡象。 從央視的春運遷徙圖到姚晨看到微博資料的驚呼;從兩會期間的兩會大資料,到《星星》都叫獸的高低領毛衣,「大資料」被人們推到了一個前所未有的高度,同時也從一個高精尖的科研方向變成了一個世人皆知的行銷詞彙。
我既沒有資格代表學術界,更沒有資格來判定誰是誰非。 我只能就自己的工作經歷,來談一下我眼中的大資料:
什麼是大資料?
百度百科對大資料的定義是這樣的:大資料(big data)或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為説明企業經營決策更積極目的的資訊。
Gartner給出了這樣的定義:「大資料」是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。
個人認為Gartner的定義更為貼切。 「新處理模式」是一個很關鍵的詞彙,這也是我所理解的「大資料」區別于傳統統計分析等最關鍵的特徵之一。 這個所謂的「新處理模式」有兩層含義:
1、由於海量的資料,需要更高效的存儲和處理技術,Hadoop成為了大資料時代的標誌;
2、如果你認為大資料就等於Hadoop,那就大錯特錯了。 Hadoop只是大資料時代的一個必要條件,大資料還有一個明顯的標誌是資料採礦和人工智慧的緊密結合。 這也是我理解的「大資料」與現在很多所謂「大資料」專案最明顯的區別之一。 我會在後面的案例中給大家展開。
除了上面的「新處理模式」上的區別,個人認為還有一個最主要的區別是:資料統計分析是基於已有資料的縱向歸類,而大資料是基於對已有海量資料的處理,對還未產生的資料作出預測和推薦。 資料統計是已經發生的事情,而大資料往往被用於還沒有發生的事情預測或者推薦中。
預測和推薦,是如何實現的?
目前主要的推薦演算法大致可以分為兩類。 一個是基於行為,一個是基於內容。 當然,針對不同的領域,不同的預測和推薦的物件,又會有十余種演算法。 這就不是本文展開的內容了。
基於行為的分析,顧名思義,即對使用者在互聯網、移動互聯網留下的「痕跡」,即流覽、點擊、收藏、購買、二次購買的分析,得出未來會選擇購買的預測和推薦結果。 基於行為的分析,屬於群體智慧,綜合利用群體使用者的行為偏好。 使用者之間會相互影響,更加符合現實世界中的使用者行為。
圖1、電商基於行為的推薦漏斗演算法
基於內容的分析, 包括對文字、圖片、音訊、視頻等資訊的分析,得出預測和推薦的結論。 內容的「基因」和使用者的偏好相匹配,最有代表的是潘朵拉的音樂推薦專案,其將曲庫中所有歌曲都由400多位專家打上標籤,然後建立個人與音樂的聯繫,從而完成音樂的推薦。 內容的分析只針對個人,與使用者之間關係無關。
大資料到底能做什麼
現在談這個問題可能會讓大家笑話,似乎所有人都知道大資料能幹這個,能幹那個,最後連我們自己都覺得可笑。 大資料已經都不是被「妖魔化」了,是「娛樂化」。 大資料似乎是個離我們忽遠又忽近的事物了,變得不真實起來。
好吧,我還是結合從業經歷來說說大資料「解決過什麼問題」吧:簡單地來說,大資料可以幫我們解決決策和選擇的問題。
天氣預報就是一個最古老而且眾所周知的預測。 你可以根據預報來決定明天穿什麼衣服,是否要帶雨傘,等等;
近兩年來,大資料被應用到影視製片行業,基於對觀眾偏好的分析,去預測、設計觀眾喜歡的劇情,找觀眾喜愛的演員出演相關的角色,甚至可以去預測票房。 這些所有的預測都是基於資料的基礎上,經過一定的模型處理,得到接近真實的結論。 從某種程度上給決策者決策的依據,比如《紙牌屋》和《星星》。
大資料還有一個重要的作用,就是解決人們的「選擇」問題。 別笑,無論你的年齡、性別、教育背景,人們目前都面臨著前所未有的選擇問題。 講的學術一些,這是由於「長尾效應」導致的問題;講得通俗一些,就是由於日益增多的可選擇的物件和我們自身的處理能力之間的矛盾。
科技的進步讓人變得更懶,也就是我們自身的處理能力降低,無論是主觀的還是客觀的。 而可被選擇的物件卻在日益增多。 從紛繁複雜的商品(電商),到海量曲庫中的樂曲;從婚戀網站的男女朋友,到交通管理的信號燈。
基於人工智慧下的大資料,就是可以使人們「變懶」的一個手段。 基於你的歷史行為,判斷出你可能的喜好,乃至需求,將最佳結果,推薦給你。 這就是大資料,她是你的貼心管家,或者說是最懂你的朋友。
一個最經典的案例是沃爾瑪曾經做過的「啤酒」和「尿布」調研:沃爾瑪在研究中發現,一類顧客經常在購買尿布的同時也購買啤酒。 尿布跟啤酒自然是毫無關聯的兩個品類的商品,從個人經驗上來看,根本想不到二者的聯繫。 後來發現,這是一類社會現象所導致的。 美國有很多年輕夫婦,尿布用完後,女主人在家帶孩子,而男主人就去超市買尿布。 買完尿布之後,男主人通常會順帶著買些啤酒。
上述例子說明,資料經常可以讓你發現看似不合理不合邏輯但卻存在,並且經常發生的現象。
再舉個例子,北京的交通擁堵是地球人都知道的事情。 尤其是早晚高峰,這已經不需要預測了。 但如果根據歷史交通資料,再經過數學模型,計算出一個全北京最佳的交通信號燈管理系統,這就屬於大資料的範疇了。
圖2、計程車每天的分布圖
這也是我眼中大資料主要與普通的資料統計分析最大的不同:資料統計可以説明你發現疾病,但大資料可以不但説明你發現,且説明你治療疾病。
大資料絕不是「噱頭「,我們在説明某運營商閱讀基地的閱讀推薦專案中,各項指標均得到大幅提升。 而這個提升不是百分之幾十,而是數倍的提升! (使用者人均流量提升了4倍,沉默使用者啟動能力提升了6.5倍)這才是大資料的魅力。
大資料不是萬能的
大資料顯然不是萬能的。 正因為如此,她才真實。 大資料在有些領域由於種種原因,所帶來的價值並不如預期的那麼高。 導致這種現象最主要的問題有兩個,一個是由於資料本身的品質或者數量不夠;另一個是演算法不合適。
不要以為是海量資料就一定會有價值,在過往的工作中,我們經常發現來自甲方的資料來源有80-90%的資料都是無用的。 只有10%-20%的資料才會產生一定的價值。 這就又讓我想到Marry Meeker打的那個比喻,「大資料的工作就像在一堆稻草中尋找一根針」。
何況,大多數領域本身業務屬於早期,所擁有的資料非常貧乏。 冷啟動、稀疏性是大資料在諸多領域面臨的挑戰。
另一方面,對於不同領域,不同專案,沒有放之四海而皆準的演算法,必須要根據具體問題具體分析解決。 在實際的工作中發現,不只是不同的領域(如文章推薦與商品推薦),甚至同一領域的不同單元(同屬電商但不同類電商,如母嬰類和服裝類或者奢侈品類)也有所不同。
資料的交叉利用
上面提到的兩個大資料在實際應用中面臨的最大問題,即冷啟動時資料的匱乏和業務早期資料的稀疏性問題,並不是無藥可救。 業界一直討論的資料打通,就是解決這兩問題的出路。
對於一些新興領域,缺乏資料是必然的,而另一方面,正由於缺乏資料的支援,所以才更需要有強大決策支援的系統對其業務做指導和支撐,以實現少走彎路,利益最大化的目的。
移動互聯網領域的專案,尤為代表。 雖然在過去的兩三年裡,移動互聯網得到了高速的發展,但畢竟在各個方面的積累,都無法與互聯網相比。 尤其在人們形成穩定的使用習慣之前,資料還不具備更多的價值和意義。
但如果能把互聯網的資料與移動互聯網資料打通,那麼我們就掌握了這個人的喜好等多方面資訊,從而為移動互聯網業務做出更有效的指導和説明。
圖3、互聯網與移動互聯網資料的打通
當然,資料的打通絕不僅限於互聯網和移動互聯網。 每個資料來源的資料往往刻畫了一個人的不同方面。 正如巴拉巴西教授在《爆發》一書中描繪的那樣,如果資料充分,人類93%的行為是可以預知的,是有規律的。
也只有將這些不同來源的資料重新組織,才能挖掘出更有意義的資訊。
如今,行業內不少人打著「資料統計和分析」的旗號來做大資料,讓很多外行人陷入了誤區:資料統計並非等於大資料。 無論資料統計也好,大資料也罷,其實都是為了使我們的工作變得更為有效,讓決策更為理性而準確。 重視資料,本身就是一個企業成熟的標誌。
移動互聯網的迅速崛起,讓資料變得更為多樣、豐富。 它的移動性,它的碎片化,它的私密性和隨時性都剛好彌補了使用者離開桌面電腦之後的資料,從而與原有的互聯網資料一起很好滴勾勒出一個線民一天的生活,日常生活的資料化。
隨著資料的進一步豐富和完善,隨著不同管道資料的打通和交叉利用,有關大資料的想像一定會更加廣闊。