不僅要看圖,文字還有真乾貨。
上面是100+手機的最新網圖,它正在網路中四散傳播,當你打開「郝聞郝看」的這幾秒,它已經在互聯網被傳遞和轉載了N次,這就是力量,讓資訊不斷擴張與自我延伸,同時也造就出更多資料。
按照阿裡巴巴副總裁、資料委員會會長車品覺的話說,這是社交資料的常態,它決定著時代大潮下資料分析的特徵——冷豔高貴接地氣,奔放洋氣有深度。
要知道,HTTP://www.aliyun.com/zixun/aggregation/34062.html">Windows95時代的資料分析,MB量級;Google搜索時代的資料分析,GB級;而到了社交時代, 資料分析就是TB級,每每千倍數量級的增長,到如今,自然變成了「大」資料的分析,大在資料的數量級,也大在資料的多樣維度,此外,更講求Veracity(真實性)、Velocity(及時的速度),進而,大資料分析才能真的「 可實施」、「可解釋」與「資料準確、穩定」。
概念多多吧? 很抽象! 不好意思,小郝子只能告訴郝友們,這些概念是大資料思維的基礎,沒有它們,談什麼大資料都是無本之木,無源之水。 這是小郝子第二次聽品覺老師佈道,在上海「福布斯」的論壇上。 與去年末採訪不同,這次多了一些業內資深者的探討,思想的碰撞,展現出大資料思維在實踐中的火花。
一、問題既是答案,你懂麼?
問題就是答案? 是的,大資料思維就是要會「問」。
品覺說了個案例——之前,南方電網有人請教,他們收集每戶各時段用電的資料有用麼? 品覺考慮了一下,問對方,能否用不同的時段的用電量資料,來估算大件家用電器是否出現故障,電網的人回答說可以,那麼這樣就可以衍生出針對的服務,提醒屋主「電器可能出現故障」,早些維修,避免出現短路、火災等隱患。 而更進一步,若能瞭解其家用電器的品牌、型號,更可以告訴商家,相關產品的地理分佈,實際故障率等等資料,這些對它們生產、銷售又具有極大的意義...... 這不就是大資料思維了麼?
點融網創始人郭宇航則分享了第一個案例,他曾到著名的P2P網貸同行Lending Club去學習,早年,Lending Club一直在收集一些看似無用的資料:比如,使用者上網的時點,填寫借貸申請表花費的時間,但後來,時間久了, Lending Club發現這些統計都與借款者的違約率密切相關——總是在大半夜上網尋求貸款的人,他們很可能沒有十分穩定的工作;而很快填寫完借貸申請表的人,很可能借貸的態度不是那麼謹慎,其動機就值得深究...... 看似沒用的資料最後卻可以展現極大的能量。
所以說,看到資料不是重要的,關鍵是怎麼將它們應用於展現其價值的地方,讓老闆更瞭解商業運營的各個切面,讓風控更多控制風險的角度,讓跑步的人更懂得自己身體各部位的狀態...... 那麼,大資料就是為你而生。
二、假設與答案之間
又是段子兩則:
如若京東創始人劉強東向你要「週報」,你要做一份什麼樣的週報? 告訴他:「以番茄為代表的生鮮做得很好」,或者是:「奶茶事業大有可為」? 都不對,你應該以周為單位,回顧之前劉佈置的任務要點,哪裡做得好,為什麼好,哪裡有問題,為什麼出現這樣的問題,有哪些解決方案,最好的解決方案是什麼,為什麼;當下的電商環境出現了哪些重要的變化,京東需要做怎樣的適應性變化...... 沒有準確假設的大資料分析,即便拿出結果,也不能說服劉強東這樣的大佬,因為一開始方向就錯了,假設差之毫釐,結果謬以千里。 用大資料來討好領導? 當心馬屁拍到馬蹄上。
另有一位互聯網企業高管說,阿裡投資優酷,第二天股票一定跌,「這就是我的大資料。 」沒錯,第二天優酷的股票跌了,但這就大資料了? 真心扯淡,不漲就跌,也就是50%的概率必定猜對。 大資料分析可不是一次猜中就行,要次次「猜中」才是真的大資料分析,更核心的,要「猜到」——漲,漲多少個基點;跌,跌多少個基點。 不然,比巫蠱卜算還不靠譜,怎麼能是大資料? 小郝子個人覺得,不懂裝懂,正是這群人污穢了大資料的美好願景,就是「劣幣驅逐良幣」的變種,SB兮兮。 (請原諒小郝子又罵人了)
可見,不懂假設就找不到答案,蒙對了答案也不能證明大資料思維,在一套嚴謹的數學體系下,大膽假設,小心驗證,調整,對標,才是尋求大資料正解的良途,雖然它註定不會平坦。