近來,大資料不斷被提及,成為了一個熱門概念。
企業紛紛宣稱自己的大資料能力很強,但線民被推送的「精准廣告」常常是沒用的垃圾資訊處理。 中國企業的大資料能力究竟如何? 大資料方便了生活,也帶來了隱私和安全風險,其邊界在哪裡?
6月12日,就大資料的熱點問題,新京報記者和北京大學光華管理學院商務統計與經濟計量系教授王漢生展開對話。
王漢生
北京大學光華管理學院商務統計與經濟計量系教授,博士生導師,系主任。 北京大學商務智慧研究中心主任。 博雅立方科技有限公司首席科學家。 微信公眾號「狗熊會」創始人。 1998年北京大學數學學院概率統計系本科畢業,2001年美國威斯康星大學麥迪森分校統計系博士畢業。 美國統計協會2014年會士(Fellow)。 他主要研究高維資料分析,統計學在電子商務領域的應用等,尤其關注網路資料和位置軌跡資料的統計分析。
■ 核心觀點
大資料分析並非新奇概念,大資料能力提升的挑戰是隨著技術進步而產生的新的資料類型,包括中文文本,網路結構,位置軌跡等,需要建立全新的分析模型;國內行業中,邊際利潤較低的電商利用大資料發展空間有限, 但傳統制造業利用大資料前景非常好;國家需要對大資料帶來的隱私風險進行規范,需要平衡行業與個體的利益。
大資料更像是一個口號
有些企業趕時髦,強調自己是做大資料的,但其實他們的資料分析能力慘不忍睹
新京報:最近,大資料概念炙手可熱,很多企業包括上市公司都在談大資料。 你如何看待大資料這個概念?
王漢生:這不是一個嚴格的學術定義。 它更像是一個口號,一種公共宣傳的需要。 隨著技術的進步,大資料有一定的實質性變化。 例如:產生了新的資料類型,達到了一定的量級。 但是也有不少被神化的地方。 比如原來金融投資的資料就很大,也在實際應用中有體現,只不過當時沒有人關注。
新京報:現在很多企業都宣稱其資料已經達到一個新的量級。
王漢生:有些企業以前是做物流的,有的是做3C的,現在它們都在趕時髦,強調自己是做大資料的,但其實它們的資料分析能力慘不忍睹。 過去是什麼樣,現在還是什麼樣。 當然也不排除其中有不錯的企業,自始至終注重從資料產生價值。
汽車等產業大資料發展空間更大
我看好傢俱、汽車等這些獲利率不錯的傳統產業,他們未來利用大資料的空間很大
新京報:現在國內宣稱大資料能力最強的是電商行業。 有報導說電商現在可以做到使用者一登錄,他們就能判斷使用者需要什麼,從而提前發貨,將使用者想買的東西送到。 現實中有實現的嗎?
王漢生:這是很難實現的。 對於極小部分購買行為非常有規律的人,他們的購物需求是可預測的。 但是在多數情況下,消費者的購買行為是高度不可預測的。 個人化推薦存在了這麼多年,商品推送變為顧客的購買行為的轉化率一般也就百分之幾,如果能到百分之十已經是非常高了。 畢竟資料分析只是描述市場和消費者的行為,並不會説明人做決定。
新京報:國內電商現在利用大資料主要還是在商品頁面的個人化推送方面。 你認為做得如何?
王漢生:頁面推送的成本非常低,不涉及物理上的搬運,它的邊際成本幾乎是零。 這方面國內做得越來越好,個別情況下轉化率可以做到百分之十。 這個過程中不僅僅涉及演算法精確問題,還要考慮網站整體的服務品質。
新京報:未來國內電商進一步提升利用大資料能力的空間有多大?
王漢生:我不看好電商行業,因為電商行業的邊際利潤已經很低了。 我看好傢俱、汽車等這些獲利率不錯的傳統產業,以及基金保險等傳統的金融行業。 他們未來利用大資料的空間很大。 另外一個很大的大資料的利用方向是行銷相關的,為中小企業解決廣告投放困難的服務。
新京報:怎麼利用大資料説明中小企業解決廣告投放難題?
王漢生:中小企業做線上行銷優勢不大,一個只面向方圓幾公里內顧客的咖啡廳沒必要到入口網站或者電視臺上去做廣告,小企業也買不起這樣的廣告。 他們需要精准定位的廣告。 利用LBS(基於位置服務)工具產生的大資料進行定向行銷的空間很大。 但現在的問題是,基於使用者位置的行銷平臺越來越多,中小企業篩選成本很高。
「便利」與「隱私」需平衡
隱私保護管得太松,線民隱私得不到保護;管得太緊,企業的創新受限
新京報:儘管大資料潛力巨大,但也給個人和企業的資訊安全帶來風險。
王漢生:現在我國,甚至全球範圍內,法律對隱私保護的界定是不夠清晰的,缺乏統一認識的。 例如線民在電商流覽商品的記錄,是線民的,還是電商的,還是線民和電商共有的? 現在無定論。 歐洲對個人隱私這方面的監管是非常嚴格的,但這也限制了歐洲的互聯網企業發展。 美國對這方面的監管相對鬆散一些,中國也還在學習摸索的階段。 但隱私保護這一刀切在哪裡還沒有結論,管得太松,線民隱私得不到保護;管得太緊,企業的創新受限,行業發展受限。 所以,我們享受了互聯網帶來的便利,也需要讓渡一些隱私的空間。 但是,具體需要讓渡多少,需要國家、企業、個人的逐步理解溝通。
新京報:現在資料分析對人的識別可以準確到什麼程度?
王漢生:我不確信中國在這方面的這種分析能力。 根據公開的文獻,在美國只要提供郵編、性別和出生年月,87%的人就可以被獨立識別出來。 目前企業可以通過一個人的購買行為,識別到獨一無二的一個虛擬人,企業可以知道這個虛擬人的很多喜好,但這個人叫什麼名字,做什麼的,一般情況下,企業還是不知道的。 普通的企業,也沒有動力去知道。 但如果有好事者,把電商獲取的資料和其他資料對接,就能識別到具體的人了。 所以隱私保護還是非常重要。
新京報:現在智慧手機安裝的軟體,不少都要求獲取大量許可權,有的甚至要求有監聽通話和短信的許可權,這些軟體對個人資料的大範圍收集是有必要的麼?
王漢生:我不了解這些行為背後的動機。 據我對行業的瞭解,大多數企業拿回去,啥也幹不了。